logo of mihoyo

米哈游k8s 运维开发工程师(AI 基础设施方向)

社招全职3年以上程序&技术类地点:上海状态:招聘

任职要求


1.本科及以上学历,计算机/电子/通信等相关专业,3 年以上 K8s 生产环境工作经验。
2.深入理解 K8s 核心组件(kubelet、kube-scheduler、controller-manager)和调度框架,具备 GPU 调度实战经验(NVIDIA Device Plugin、Scheduler Extender、DRA 等)。
3.具备 CNI 或 CSI 插件开发或深度定制经验,熟悉主流实现(Calico/Cilium、CSI Driver 框架)并能进行源码级调试。
4.有多集群管理经验,熟悉 Karmada、KubeFed、Cluster API 或类似方案中的一种以上。
5.扎实的 Go/Python 编程能力,良好的…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责公司 MLP 平台的 GPU 集群底座建设,主导大规模多集群环境下的稳定性、调度效率和基础设施插件能力,支撑内部模型训练和推理业务。
核心职责
1. GPU 集群稳定性建设:主导 GPU 集群高可用架构设计,制定 SLA/SLO 目标,建立容量规划、变更管控、灰度发布和稳定性度量体系。
2. 故障响应与处理:负责 P0/P1 级故障的快速定位、根因分析和事后复盘,建立可观测性、告警和应急响应机制。
3. 多集群管理:设计多集群联邦、统一接入、资源调度和灾备方案,解决跨集群业务调度、流量分发和数据一致性问题。
4. 基础设施插件开发:基于 K8s 二次开发或定制 CNI、CSI、Device Plugin、Scheduler Extender 等核心组件,适配公司 GPU 资源池和存储/网络环境。
5. 跨团队协作:与算法、业务方紧密协作,承接模型训练/推理场景的底层需求,推动平台能力落地。
包括英文材料
学历+
Kubernetes+
Cilium+
Go+
Python+
还有更多 •••