米哈游RL Infra Engineer - Varsapura

社招全职程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

1. 8+ years of professional experience in software engineering, machine learning, or related technical roles.
2. Strong proficiency with Python and C++.
3. Experience with game development workflows, including debugging, profiling, and version control.
4. Solid understanding of deep neural network architectures and reinforcement learning concepts.
5. Experience with deep-learning frameworks such as Pytouch, Tensorflow.
6. Experience with distri…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

You will build and own the infrastructure foundation of our reinforcement learning framework, enabling RL-driven gameplay systems that can scale across current and future UE5 projects. This is a hands-on, hybrid role that sits between ML research and game/engine engineering. The focus is on turning research ideas into robust, deployable, production-ready systems that run inside real game environments. 

You will:
1. Collaborate with the gameplay team to deliver machine learning and Al solutions that enhance the game experience on Varsapura, our upcoming flagship title.
2. Partner closely with gameplay engineers to prototype, optimize, and productionize reinforcement learning pipelines.
3. Take ownership of the technical roadmap for RL infrastructure, identifying bottlenecks and driving improvements in reliability, scalability, and iteration speed.
4. Deploy and operate learning agents in live or simulated UE-based environments, and optimize infrastructure for runtime inference.

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练工程师（LLM Training Engineer）

社招3-5年J0012

【关于我们】我们全面打造 AI Infra：大模型训练、推理引擎，为公司核心大模型(基模+MaaS)场景提供高速、稳定、可扩展、低成本的大模型训练与推理服务；在这里，你将参与推动分布式训练、强化学习（RL）、微调（SFT）、算子优化、混合精度与量化加速、KV Cache 管理、推理调度与 Pipeline 优化等前沿技术落地，让训练更快、推理更省、交付更稳；【职位描述】 1、负责大模型训练框架与训练平台的研发与演进，支撑万亿级参数模型训练落地； 2、负责分布式训练方案设计与优化（DP/TP/PP/ZeRO/FSDP/MoE 等），提升吞吐与资源利用率； 3、负责训练性能调优，包括算子优化、混合精度（BF16/FP16/FP8）、显存优化、通信优化与 pipeline overlap； 4、负责训练稳定性建设，包括容错恢复、监控告警、性能回归、训练诊断与自动化运维能力； 5、参与强化学习训练框架与对齐训练流程建设，支持 RLHF/PPO/DPO/GRPO 等训练任务的工程优化与平台化落地； 6、跟进前沿训练系统技术，推动在业务场景规模化落地。

更新于 2026-03-03北京|上海|深圳

通义实验室-RL Infra工程师-Qwen

社招3年以上技术类-算法

我们正在构建大规模、可扩展的强化学习训练框架，支持 Qwen 模型从单轮到 Agentic RL 的全链路高效训练。通过算法和工程的 Co-design，我们将持续研究更高效的模型训推方案、进一步扩大 RL Scaling 的规模，提高 Qwen 的 Reasoning 和 Agent 能力，探索模型的智能上限。诚邀优秀的 Infra 同学加入！ 1、在不同的 RL 负载下提升训推框架的整体效率，对通信、内存、计算等性能瓶颈进行针对性分析与优化，提高训推引擎的资源利用率和系统峰值吞吐。 2、研究极致的显存优化方案、低精度量化技术、异步训推方案，通过工程与算法 Co-design 来优化训练曲线的稳定性、提高训推一致性等。 3、研究推理实例的负载优化与调度策略，缓解负载不均衡带来的资源闲置，提高缓存利用率和多轮命中率，建立高效的健康监测与容错恢复机制。 4、研究大规模跨机 EP 的性能优化；推理引擎参数更新的效率优化；MTP 优化和投机推理技术等。 5、提高 Qwen-Agent 调用链路的稳定性和易用性，保障 Agentic RL Scaling 过程中高并发环境的可靠性。适配不同的 Agent 任务、在不同场景下进行针对性的深度优化。 6、参与下一代基础设施建设，针对下一代 Qwen 系列模型进行结构适配、分析不同负载的性能瓶颈并持续优化。

更新于 2026-03-17北京|杭州|上海

智能体/具身/全模态RL Infra大模型算法工程师/架构师

社招算法开发岗

团队介绍我们是京东科技云事业部AI Infra团队，致力于大模型核心技术的前沿创新与应用。我们专注于业界领先的大模型创新算法及框架研发，构建极致高效的基础大模型训练、推理与渲染一体化平台，提供高吞吐高可用、低成本低延迟的大模型服务。我们的核心使命是高效支持京东自研和业界主流开源基础模型的训练、推理与渲染服务，驱动京东集团内外部的智能体/具身/全模态等大模型业务生态及应用。我们团队秉承技术驱动、创新为本的理念，为每一位成员提供广阔的成长空间和富有挑战性的项目。工作内容 1.研发智能体/具身/全模态大模型算法，结合RL Infra后训练基座Scale-Law优化，提高大模型训练、生成和仿真渲染效能； 2.基于MoE/DiT大模型架构，融合样本均衡/多P并行/压缩/量化/剪枝/算子融合等技术，进行算法与系统Co-Design优化，并推动业务落地； 3.追踪业界最新技术进展，开展大模型算法与RL Infra训练、生成和仿真渲染相关创新，发表高影响力论文，打造业界一流的大模型RL Infra服务能力。

更新于 2026-01-20北京

【算法】Agent算法工程师/专家

社招技术类

1、负责Agent的设计与效果优化，通过Agent架构优化（工具、上下文管理、编排等）和模型优化（Agentic RL等具体任务的Post-Training），产出效果领先的Agent； 2、探索AgentArchitectures/Structures的上限，在Agent应用研究中最大程度释放模型的能力，研究Self-Evolving AI System，实现Self-Improving Agents； 3、设计和开发领先AI应用和解决方案原型，验证产品概念和需求，构建应用评估并优化Agent效果，为电商场景的AI应用提供领先的Agent解决方案。

更新于 2026-02-04上海