logo of didi

滴滴AI集群工程师(J251013006)

社招全职3年以上技术地点:北京状态:招聘

任职要求


必备技能
- 3年以上Kubernetes生产环境经验,精通调度机制和节点管
- 熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度)
- 熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验
- 具备大规模集群(百节点以上)运…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。

Kubernetes调度与计算平台
资源调度与集群管理
- 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率
- 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化
- 深度排查Kubernetes集群复杂问题

计算平台与节点优化
- 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能
- 推进国产AI芯片的生态适配
- 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性

扩展方向:性能优化(附加项)
- 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率
- 深入文件系统、缓存、镜像、cri细节,优化容器启动速度
包括英文材料
Kubernetes+
Go+
Python+
还有更多 •••
相关职位

logo of mihoyo
校招程序&技术类

岗位职责 1. GPU集群运维与管理 -负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。 -进行GPU资源全生命周期管理,保障AI任务的高效运行。 2. 系统部署与优化 -参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。 -针对AI训练/推理任务优化系统参数(如内核调优、RDMA调优、IO调优等)。 3. 故障排查与性能调优 -快速定位并解决GPU服务器硬件、网络、存储等相关问题。 -分析任务运行日志与监控数据,优化资源利用率。 4. 自动化与工具开发 -编写脚本(Python/Bash等)实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。 -参与GPU集群管理平台的功能扩展与性能优化。 5. 跨团队协作 -与模型训练、推理服务、数据服务团队紧密合作,理解业务需求并提供技术支持。 -协助业务团队定位模型运行中的硬件/系统瓶颈。

上海
logo of baidu
社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-07-11北京|深圳
logo of baidu
社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-04-07北京|深圳
logo of baidu
校招AIDU项目

-参与万卡GPU集群的建设与核心技术的研发工作; -设计并实现自适应的分布式系统框架,算子与通信极致优化,并行策略自动切分,提升大模型训练和推理效率; -探索多芯混合集群高效的训练策略,让任意集群的算力效率都充分发挥出来; -探索算法与算力(芯片设计、集群设计)协同优化的方案,跨数量级降低大模型训练和推理的成本。

更新于 2025-05-19北京