滴滴AI集群工程师(J251013006)

社招全职3年以上技术2026-01-16地点：北京状态：招聘

扫码手机上打开

任职要求

必备技能
- 3年以上Kubernetes生产环境经验，精通调度机制和节点管
- 熟悉GPU资源管理（NVIDIA GPU Operator、GPU共享、拓扑感知调度）
- 熟练掌握Go/Python语言，有Kubernetes源码阅读或二次开发经验
- 具备大规模集群（百节点以上）运…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找资深AI集群工程师，负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者，您将参与从硬件选型到调度优化的全链路工作，支撑公司核心AI业务的万卡级算力需求。

Kubernetes调度与计算平台
资源调度与集群管理
- 设计和实现GPU算力调度系统，优化资源利用率和作业调度效率
- 负责Kubernetes节点组件（kubelet、container runtime）的稳定性、性能优化
- 深度排查Kubernetes集群复杂问题

计算平台与节点优化
- 参与服务器硬件选型、测试和验收，重点优化GPU服务器性能
- 推进国产AI芯片的生态适配
- 建立集群故障感知召回体系，提高AI计算资源利用率，维护线上集群稳定性

扩展方向：性能优化（附加项）
- 参与AI集群网络优化（NCCL/RoCEv2），提升分布式训练通信效率
- 深入文件系统、缓存、镜像、cri细节，优化容器启动速度

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

Go+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

AI集群运维工程师

校招程序&技术类

岗位职责 1. GPU集群运维与管理 -负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。 -进行GPU资源全生命周期管理，保障AI任务的高效运行。 2. 系统部署与优化 -参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。 -针对AI训练/推理任务优化系统参数（如内核调优、RDMA调优、IO调优等）。 3. 故障排查与性能调优 -快速定位并解决GPU服务器硬件、网络、存储等相关问题。 -分析任务运行日志与监控数据，优化资源利用率。 4. 自动化与工具开发 -编写脚本（Python/Bash等）实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。 -参与GPU集群管理平台的功能扩展与性能优化。 5. 跨团队协作 -与模型训练、推理服务、数据服务团队紧密合作，理解业务需求并提供技术支持。 -协助业务团队定位模型运行中的硬件/系统瓶颈。

上海

AI异构计算工程师（J82762）

社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-07-11北京|深圳

Java开发工程师-AI集群

校招研发技术类

1、负责AI侧产品落地，产品内容领域的技术架构设计和核心模块开发，支持用户规模高速增长； 2、保障服务高可用、高性能、高稳定，配合前端、算法实现 AI 能力落地； 3、和海外技术生态对接，支持技术难题攻关面临跨洲跨国家的技术挑战，持续提升产品的扩展性，降低技术输出的成本。

杭州

AI计算通信加速研发工程师（J82762）

社招ACG

更新于 2025-04-07北京|深圳