深度求索AI超算集群运维工程师

实习兼职全职2026-05-22地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历，计算机、电子、通信、自动化或相关专业优先。
2. 具备 Linux 服务器运维经验，熟悉集群环境下的系统管理、故障排查与性能分析。
3. 熟悉 GPU/AI 加速卡服务器、RDMA 网络等相关基础设施，有实际运维经验者优先。
4. 具备良好的脚本或自动化能力，能够使用 Shell、Python、LLM等工具提升运维效率。
5. 具备良好的沟通协作…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责AI超算集群中前沿服务器、加速卡等基础设施的日常运维工作，包括巡检、维修、故障定位与生命周期管理，缩短平均故障恢复时间（MTTR），保障集群持续稳定运行。
2. 负责新一代计算资源的快速交付与上线，完成节点的基线检查与性能验证工作，确保资源能够高质量高性能投入生产。
3. 负责建设和优化面向AI超算集群的监控、告警与可观测性体系，实现集群健康状态的实时感知。
4. 构建自动化运维工具链，提升故障自愈率与运维效率，降低人工干预成本。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

脚本+

Bash+

还有更多 •••

登录查看完整学习资料

相关职位

SRE / 存储工程师

社招软研类

• 负责万卡超算集群、多云、多集群环境的高可用性、稳定性和性能保障。 • 构建和优化监控、告警、日志、追踪、容量规划及自动化运维体系。 • 支撑训练、推理和资产管理平台的端到端可靠性和性能优化。 • 接触前沿技术：Prometheus/Grafana、Loki、K8s Operator、自动化运维、云原生平台。

更新于 2026-01-08上海|北京

高级 SRE工程师-AI平台

社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作，为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题，打造自动化，稳定，易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向，推动运维工作自动化、工程化

北京

高性能网络工程师-内核开发

社招5年以上程序&技术类

岗位职责： 1.负责IDC网络、高性能网络（InfiniBand、RoCE 等）的规划、建设、维护； 2.负责网络的秒级、毫秒级监控、相关其他网络运维工具的开发、维护、运维； 3.负责对突发事件的快速响应和处理，快速进行故障定位与排查,保障业务稳定运行; 4.负责对现有网络系统的架构设计与迭代优化,根据业务需求持续改进网络性能与可靠性；

上海

全栈开发工程师（北京/杭州）

实习全职

无

更新于 2026-05-22杭州|北京