logo of deepseek

深度求索AI超算集群运维工程师

社招全职DeepSeek地点:杭州状态:招聘

任职要求


1. 本科及以上学历,计算机、电子、通信、自动化或相关专业优先。
2. 具备 Linux 服务器运维经验,熟悉集群环境下的系统管理、故障排查与性能分析。
3. 熟悉 GPU/AI 加速卡服务器、RDMA 网络等相关基础设施,有实际运维经验者优先。
4. 具备良好的脚本或自动化能力,能够使用 Shell、Python、LLM等工具提升运维效率。
5. 具备良好的沟通协作…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责AI超算集群中前沿服务器、加速卡等基础设施的日常运维工作,包括巡检、维修、故障定位与生命周期管理,缩短平均故障恢复时间(MTTR),保障集群持续稳定运行。
2. 负责新一代计算资源的快速交付与上线,完成节点的基线检查与性能验证工作,确保资源能够高质量高性能投入生产。
3. 负责建设和优化面向AI超算集群的监控、告警与可观测性体系,实现集群健康状态的实时感知。
4. 构建自动化运维工具链,提升故障自愈率与运维效率,降低人工干预成本。
包括英文材料
学历+
Linux+
脚本+
Bash+
还有更多 •••
相关职位

logo of liauto
社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

北京
logo of mihoyo
社招5年以上程序&技术类

岗位职责: 1.负责IDC网络、高性能网络(InfiniBand、RoCE 等)的规划、建设、维护; 2.负责网络的秒级、毫秒级监控、相关其他网络运维工具的开发、维护、运维; 3.负责对突发事件的快速响应和处理,快速进行故障定位与排查,保障业务稳定运行; 4.负责对现有网络系统的架构设计与迭代优化,根据业务需求持续改进网络性能与可靠性;

上海
logo of deepseek
社招DeepSeek

更新于 2026-04-24杭州|北京
logo of hello
社招软研类

• 负责万卡超算集群、多云、多集群环境的高可用性、稳定性和性能保障。 • 构建和优化监控、告警、日志、追踪、容量规划及自动化运维体系。 • 支撑训练、推理和资产管理平台的端到端可靠性和性能优化。 • 接触前沿技术:Prometheus/Grafana、Loki、K8s Operator、自动化运维、云原生平台。

更新于 2026-01-08上海|北京