小米容器研发工程师(GPU 方向)
任职要求
- 熟悉 GPU 相关技术,对 Nvidia GPU 技术有深入了解; - 有 GPU 池化、虚拟化、调度优化等技术经验者优先; - 有大规模 G…
工作职责
- 负责基于 Kubernetes 的云原生 AI 算力管理能力的建设,包括 GPU 的调度、虚拟化、池化、混部等技术; - 负责提升 Kubernetes GPU 集群的故障容错能力,提升大规模集群的可靠性; - 负责推动云原生 GPU 相关技术在业务的落地,提升业务的训练、推理等稳定性和效率;
职位简介 负责在 大规模 Kubernetes 集群 中设计、优化云网络架构与 GPU 虚拟化调度体系,支持 AI、大数据、电商等业务场景。您将深入 Linux 内核、虚拟化与容器网络技术栈,运用 eBPF 等工具提升系统性能与稳定性,并推动跨云平台的资源优化与整合 核心职责 1.设计与优化 Kubernetes 云网络架构(CNI、VPC),确保高性能、低延迟和稳定性。 2.基于 Cilium/Calico 等网络插件进行二次开发,支持跨集群通信和多租户隔离。 3.研究与落地 GPU 虚拟化技术(vGPU、MIG、GPU Passthrough),实现多租户隔离与动态资源调度。 4.应用 eBPF、perf、sysdig 等工具监控和分析网络与 GPU 虚拟化性能瓶颈。 5.在 混合云/多云环境 中实现跨平台网络与 GPU 兼容性优化。 6.开发定制 Kubernetes 设备插件和 Operator,优化容器网络与 GPU 资源管理。
团队介绍 团队长期深耕AI算法研发、AI基础架构建设、AI服务应用打造,负责从AI算法研发、性能优化加速、工程服务化与云端部署、服务调度与资源优化、到服务管理与运维在内的完整AI落地运用流程,覆盖线上数据到模型训练、训练模型到线上服务的闭环。近期重点聚焦AIGC在公司内容团队和产研团队的使用,通过大模型的能力,持续推动爱奇艺在内容创作、生产、分发、以及用户体验上的创新、优质、高效、自动化与智能化。欢迎愿意长期深耕AI领域的同学加入我们! 工作职责 - 参与AI工程服务化工作,将算法团队研发的AI能力初始原型进行服务化,落地成为业务团队线上稳定可用的AI应用 - 参与大模型训练平台、推理平台建设,包括但不限于分布式训练框架调优、推理引擎优化、模型量化及加速等 - 参与AI基础设施建设,包括计算资源管理、网络架构设计、存储系统优化等,提升资源利用率,降低大模型研发与应用成本 - AI领域最新进展的技术调研、引入改造、原型设计与开发等