logo of xiaohongshu

小红书GPU调度研发工程师/专家

社招全职1-3年后端开发地点:上海 | 北京 | 杭州状态:招聘

任职要求


任职资格
1、熟悉云原生生态及工具,如 KubernetesKubeflowVolcano、Kueue 等,有调度系统开发经验优先。
2、熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类。
3、了解大模型训练、后训练、推理、部署等生命周期,理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求。
4、熟练掌握 PythonGolangC++ 或其他编程语言中的一门或多门,具备良好的工程实现能力。
5、具备优秀的逻辑分析能力和系统抽象能力,能够基于真实业务负载进行问题拆解、策略设计和工程落地。
6、有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


工作职责
1、万卡级 GPU 调度系统建设: 参与大规模 GPU 集群调度系统建设,围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率。
2、训推统一调度: 面向大模型训练、后训练、推理服务等不同负载,设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略。
3、资源利用率治理: 建设 GPU 资源利用率分析体系,基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈。
4、LLMOps 平台融合: 参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力,与云原生平台深度融合,支撑大模型生产链路稳定高效落地。
5、集群稳定性建设: 与云原生、IDC、网络、存储和业务团队协作,提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性。
6、前沿技术探索: 持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术,探索下一代 AI 资源调度系统。
包括英文材料
Kubernetes+
Kubeflow+
Volcano+
大模型+
Python+
Go+
还有更多 •••