深度求索AI超算集群运维工程师
社招全职DeepSeek地点:杭州状态:招聘
任职要求
1. 本科及以上学历,计算机、电子、通信、自动化或相关专业优先。 2. 具备 Linux 服务器运维经验,熟悉集群环境下的系统管理、故障排查与性能分析。 3. 熟悉 GPU/AI 加速卡服务器、RDMA 网络等相关基础设施,有实际运维经验者优先。 4. 具备良好的脚本或自动化能力,能够使用 Shell、Python、LLM等工具提升运维效率。 5. 具备良好的沟通协作…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责AI超算集群中前沿服务器、加速卡等基础设施的日常运维工作,包括巡检、维修、故障定位与生命周期管理,缩短平均故障恢复时间(MTTR),保障集群持续稳定运行。 2. 负责新一代计算资源的快速交付与上线,完成节点的基线检查与性能验证工作,确保资源能够高质量高性能投入生产。 3. 负责建设和优化面向AI超算集群的监控、告警与可观测性体系,实现集群健康状态的实时感知。 4. 构建自动化运维工具链,提升故障自愈率与运维效率,降低人工干预成本。
包括英文材料
学历+
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
Bash+
[英文] The Bash Guide
https://guide.bash.academy/
A quality-driven guide through the shell's many features.
https://www.youtube.com/watch?v=tK9Oc6AEnR4
Understanding how to use bash scripting will enhance your productivity by automating tasks, streamlining processes, and making your workflow more efficient.
还有更多 •••
相关职位
社招智能与信息技术
1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化
北京
社招5年以上程序&技术类
岗位职责: 1.负责IDC网络、高性能网络(InfiniBand、RoCE 等)的规划、建设、维护; 2.负责网络的秒级、毫秒级监控、相关其他网络运维工具的开发、维护、运维; 3.负责对突发事件的快速响应和处理,快速进行故障定位与排查,保障业务稳定运行; 4.负责对现有网络系统的架构设计与迭代优化,根据业务需求持续改进网络性能与可靠性;
上海
