米哈游推理平台工程师(资源调度方向)

社招全职程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、软件工程、人工智能、分布式系统、云计算等相关专业优先。
2、熟练掌握 Go / Python / Rust 中至少一种语言，具备良好的工程实现、系统设计和问题排查能力。
3、熟悉 Kubernetes / Docker / Helm 等云原生技术，理解 Deployment、StatefulSet、Service、Ingress、HPA、CRD、Operator 等核心机制。
4、具备 Kubernetes Operator / Controller 开发经验，熟悉 controller-runtime、client-go、Informer、Reconcile 等机制。
5、熟悉 Kubernetes 调度体系，理解亲和性、污点容忍、拓扑分布、优先级、抢占、资源配额等机制。
6、熟悉 LWS / RBG 等面向大模型推理的多 Pod 协同工作负载项目，理解 Leader / Worker 架构、Group 化管理、滚动升级、故障恢复和弹性扩缩容等机制。
7、熟悉大模型推理服务的核心特性，包括 KV Cache、PagedAttention、Continuous Batching、Prefix Cache、Speculative Decoding、Chunked Prefill、PD 分离、TP / PP / EP 等。
8、熟悉至少一种主流推理引擎，如 vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy 等，了解其部署方式、关键参数、资源需求和性能瓶颈。
9、具备大规模模型服务部署和调度经验，理解多模型、多副本、多租户、高并发场景下的容量评估、资源隔离、弹性伸缩和稳定性治理。
10、熟悉 GPU / NPU 等异构硬件资源管理，了解 NVIDIA GPU、MI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责大模型推理平台的设计与建设，支撑多模型、多租户、多业务场景下的推理服务部署、资源调度、弹性伸缩、灰度发布、故障自愈和稳定性治理。
2、负责推理工作负载的平台化抽象与工程落地，建设面向分布式推理、多副本推理和多角色协同服务的生命周期管理能力，提升推理服务的部署效率、运维效率和稳定性。
3、负责异构算力资源管理、多集群调度和服务性能优化能力建设，持续提升大规模推理场景下的资源利用率、模型加载效率、服务启动速度、可观测能力和整体交付效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

分布式系统+

Go+

Python+

Rust+

系统设计+

Kubernetes+

Docker+

Helm+

Kubernetes Operator+

大模型+

缓存+

推理引擎+

vLLM+

还有更多 •••

登录查看完整学习资料

相关职位

机器学习平台研发工程师-调度方向-AI技术部

社招机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责小红书大规模机器学习平台的后台系统设计和开发工作； 2、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率，涉及k8s/kubeflow、网络通信、分布式训练等； 3、设计和构建 K8S 场景下的资源调度系统，参与底层GPU训练资源的调度优化与管理； 4、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

北京|上海

【蚂蚁星】智能软件工程算法工程师

校招蚂蚁星计划 -

我们是蚂蚁集团平台工程与技术风险部，在这里可以应用最前沿的AI技术，实践最扎实的工程平台，参与前沿技术创新，包括代码智能(Code Intelligence)、智能体应用（LLM & Agents）、云原生（Cloud Native）、平台工程（Platform Engineering）、可观测（Observability）等，在双11等海量高并发的极端技术挑战下，构建下一代智能化工程架构。团队秉承创新精神，在支持业务落地的同时推动技术进步。近三年来，我们在人工智能、软件工程、编程语言等领域的CCF A顶级会议上发表了40余篇论文，并两次获得蚂蚁集团技术最高奖T-Star及一次SuperMA大奖。我们的开源项目CodeFuse在GitHub上已获得超过8,000颗星标（截至2025年2月），并在Hugging Face和ModelScope上的模型累计下载量超过200万次。团队最新的Ling-Coder-Lite开源一周就获得3000+的下载，受到业界广泛认可。参与蚂蚁集团的 AI 基础设施、平台、应用全栈系统的高可用设计，打造全球领先 AI 原生系统智能容灾与稳定性范式。方向一、大模型系统韧性架构 - 突破分布式训练中的动态容错与自愈技术，保障超大规模参数模型的持续稳定性 - 构建多模态大推理场景下的智能容灾体系，实现服务能力的无损迁移与快速恢复方向二、AI-Native 稳定性科学 - 研发大模型驱动的故障预测与决策系统，建立AI系统的自我诊断与修复能力 - 攻克异构算力环境下的服务一致性难题，设计自适应资源调度框架方向三、前沿探索与范式革新 - 推进LLM与系统架构的深度协同，重构AI全栈系统的可靠性理论体系

杭州

大模型平台研发工程师 - 调度方向

社招5年以上技术类

1.大模型训练&推理资源调度系统的设计与开发，服务于各算法方向的大模型训练、模型评估和模型推理场景； 2.优化大规模分布式异构计算集群编排调度，实现潮汐调度、混部调度能力，提升GPU资源利用率； 3.与算法和数据团队协作，制定资源优化策略，支持平台对大模型和多模态模型任务的高效处理；

更新于 2026-03-23上海

大模型推理服务（MaaS方向）研发工程师/专家

社招引擎

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。工作职责： 1、参与/负责大模型推理服务平台（MaaS）的架构设计、系统研发、产品研发等工作； 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作，实现千亿级Token并行推理平台； 3、为内部产品线提供解决方案，协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

北京|上海|深圳