米哈游推理平台工程师(资源调度方向)
任职要求
1、本科及以上学历,计算机、软件工程、人工智能、分布式系统、云计算等相关专业优先。 2、熟练掌握 Go / Python / Rust 中至少一种语言,具备良好的工程实现、系统设计和问题排查能力。 3、熟悉 Kubernetes / Docker / Helm 等云原生技术,理解 Deployment、StatefulSet、Service、Ingress、HPA、CRD、Operator 等核心机制。 4、具备 Kubernetes Operator / Controller 开发经验,熟悉 controller-runtime、client-go、Informer、Reconcile 等机制。 5、熟悉 Kubernetes 调度体系,理解亲和性、污点容忍、拓扑分布、优先级、抢占、资源配额等机制。 6、熟悉 LWS / RBG 等面向大模型推理的多 Pod 协同工作负载项目,理解 Leader / Worker 架构、Group 化管理、滚动升级、故障恢复和弹性扩缩容等机制。 7、熟悉大模型推理服务的核心特性,包括 KV Cache、PagedAttention、Continuous Batching、Prefix Cache、Speculative Decoding、Chunked Prefill、PD 分离、TP / PP / EP 等。 8、熟悉至少一种主流推理引擎,如 vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy 等,了解其部署方式、关键参数、资源需求和性能瓶颈。 9、具备大规模模型服务部署和调度经验,理解多模型、多副本、多租户、高并发场景下的容量评估、资源隔离、弹性伸缩和稳定性治理。 10、熟悉 GPU / NPU 等异构硬件资源管理,了解 NVIDIA GPU、MI…
工作职责
1、负责大模型推理平台的设计与建设,支撑多模型、多租户、多业务场景下的推理服务部署、资源调度、弹性伸缩、灰度发布、故障自愈和稳定性治理。 2、负责推理工作负载的平台化抽象与工程落地,建设面向分布式推理、多副本推理和多角色协同服务的生命周期管理能力,提升推理服务的部署效率、运维效率和稳定性。 3、负责异构算力资源管理、多集群调度和服务性能优化能力建设,持续提升大规模推理场景下的资源利用率、模型加载效率、服务启动速度、可观测能力和整体交付效率。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责小红书大规模机器学习平台的后台系统设计和开发工作; 2、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等; 3、设计和构建 K8S 场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理; 4、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
我们是蚂蚁集团平台工程与技术风险部,在这里可以应用最前沿的AI技术,实践最扎实的工程平台,参与前沿技术创新,包括代码智能(Code Intelligence)、智能体应用(LLM & Agents)、云原生(Cloud Native)、平台工程(Platform Engineering)、可观测(Observability)等,在双11等海量高并发的极端技术挑战下,构建下一代智能化工程架构。 团队秉承创新精神,在支持业务落地的同时推动技术进步。近三年来,我们在人工智能、软件工程、编程语言等领域的CCF A顶级会议上发表了40余篇论文,并两次获得蚂蚁集团技术最高奖T-Star及一次SuperMA大奖。我们的开源项目CodeFuse在GitHub上已获得超过8,000颗星标(截至2025年2月),并在Hugging Face和ModelScope上的模型累计下载量超过200万次。团队最新的Ling-Coder-Lite开源一周就获得3000+的下载,受到业界广泛认可。 参与蚂蚁集团的 AI 基础设施、平台、应用全栈系统的高可用设计,打造全球领先 AI 原生系统智能容灾与稳定性范式。 方向一、大模型系统韧性架构 - 突破分布式训练中的动态容错与自愈技术,保障超大规模参数模型的持续稳定性 - 构建多模态大推理场景下的智能容灾体系,实现服务能力的无损迁移与快速恢复 方向二、AI-Native 稳定性科学 - 研发大模型驱动的故障预测与决策系统,建立AI系统的自我诊断与修复能力 - 攻克异构算力环境下的服务一致性难题,设计自适应资源调度框架 方向三、前沿探索与范式革新 - 推进LLM与系统架构的深度协同,重构AI全栈系统的可靠性理论体系
1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景; 2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率; 3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;
DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 工作职责: 1、参与/负责大模型推理服务平台(MaaS)的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现千亿级Token并行推理平台; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在平台上的使用问题。