米哈游k8s 运维开发工程师(AI 基础设施方向)
社招全职3年以上程序&技术类地点:上海状态:招聘
任职要求
1.本科及以上学历,计算机/电子/通信等相关专业,3 年以上 K8s 生产环境工作经验。 2.深入理解 K8s 核心组件(kubelet、kube-scheduler、controller-manager)和调度框架,具备 GPU 调度实战经验(NVIDIA Device Plugin、Scheduler Extender、DRA 等)。 3.具备 CNI 或 CSI 插件开发或深度定制经验,熟悉主流实现(Calico/Cilium、CSI Driver 框架)并能进行源码级调试。 4.有多集群管理经验,熟悉 Karmada、KubeFed、Cluster API 或类似方案中的一种以上。 5.扎实的 Go/Python 编程能力,良好的…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责公司 MLP 平台的 GPU 集群底座建设,主导大规模多集群环境下的稳定性、调度效率和基础设施插件能力,支撑内部模型训练和推理业务。 核心职责 1. GPU 集群稳定性建设:主导 GPU 集群高可用架构设计,制定 SLA/SLO 目标,建立容量规划、变更管控、灰度发布和稳定性度量体系。 2. 故障响应与处理:负责 P0/P1 级故障的快速定位、根因分析和事后复盘,建立可观测性、告警和应急响应机制。 3. 多集群管理:设计多集群联邦、统一接入、资源调度和灾备方案,解决跨集群业务调度、流量分发和数据一致性问题。 4. 基础设施插件开发:基于 K8s 二次开发或定制 CNI、CSI、Device Plugin、Scheduler Extender 等核心组件,适配公司 GPU 资源池和存储/网络环境。 5. 跨团队协作:与算法、业务方紧密协作,承接模型训练/推理场景的底层需求,推动平台能力落地。
包括英文材料
学历+
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Cilium+
https://cilium.io/labs/
Deep dive into Cilium and its features with labs provided by companies within the Cilium ecosystem
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••