小红书GPU调度研发工程师/专家
社招全职1-3年后端开发地点:上海 | 北京 | 杭州状态:招聘
任职要求
任职资格 1、熟悉云原生生态及工具,如 Kubernetes、Kubeflow、Volcano、Kueue 等,有调度系统开发经验优先。 2、熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类。 3、了解大模型训练、后训练、推理、部署等生命周期,理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求。 4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,具备良好的工程实现能力。 5、具备优秀的逻辑分析能力和系统抽象能力,能够基于真实业务负载进行问题拆解、策略设计和工程落地。 6、有…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
工作职责 1、万卡级 GPU 调度系统建设: 参与大规模 GPU 集群调度系统建设,围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率。 2、训推统一调度: 面向大模型训练、后训练、推理服务等不同负载,设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略。 3、资源利用率治理: 建设 GPU 资源利用率分析体系,基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈。 4、LLMOps 平台融合: 参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力,与云原生平台深度融合,支撑大模型生产链路稳定高效落地。 5、集群稳定性建设: 与云原生、IDC、网络、存储和业务团队协作,提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性。 6、前沿技术探索: 持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术,探索下一代 AI 资源调度系统。
包括英文材料
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Kubeflow+
https://huggingface.co/blog/turhancan97/building-your-first-kubeflow-pipeline
Kubeflow is an open-source platform designed to be end-to-end, facilitating each step of the Machine Learning (ML) workflow.
https://www.kubeflow.org/docs/started/introduction/
Kubeflow is the foundation of tools for AI Platforms on Kubernetes.
https://www.youtube.com/watch?v=6wWdNg0GMV4
In this walk-through I will show you how I've created a machine learning pipeline with Kubeflow 1.5 using Juypter Notebooks, Kubeflow pipelines, MinIO and Kserve.
Volcano+
[英文] Tutorials
https://volcano.sh/en/docs/tutorials/
This section provides guidance to help you quickly get started with Volcano, from deploying a basic Volcano Job/Deployment, to integrating with Volcano Queues
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
还有更多 •••