滴滴AI集群工程师(J251013006)
社招全职3年以上技术地点:北京状态:招聘
任职要求
必备技能 - 3年以上Kubernetes生产环境经验,精通调度机制和节点管 - 熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度) - 熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验 - 具备大规模集群(百节点以上)运…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。 Kubernetes调度与计算平台 资源调度与集群管理 - 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率 - 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化 - 深度排查Kubernetes集群复杂问题 计算平台与节点优化 - 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能 - 推进国产AI芯片的生态适配 - 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性 扩展方向:性能优化(附加项) - 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率 - 深入文件系统、缓存、镜像、cri细节,优化容器启动速度
包括英文材料
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
校招程序&技术类
岗位职责 1. GPU集群运维与管理 -负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。 -进行GPU资源全生命周期管理,保障AI任务的高效运行。 2. 系统部署与优化 -参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。 -针对AI训练/推理任务优化系统参数(如内核调优、RDMA调优、IO调优等)。 3. 故障排查与性能调优 -快速定位并解决GPU服务器硬件、网络、存储等相关问题。 -分析任务运行日志与监控数据,优化资源利用率。 4. 自动化与工具开发 -编写脚本(Python/Bash等)实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。 -参与GPU集群管理平台的功能扩展与性能优化。 5. 跨团队协作 -与模型训练、推理服务、数据服务团队紧密合作,理解业务需求并提供技术支持。 -协助业务团队定位模型运行中的硬件/系统瓶颈。
上海
社招ACG
-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作
更新于 2025-07-11北京|深圳
社招ACG
-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作
更新于 2025-04-07北京|深圳