米哈游RL Infra Engineer - Varsapura
任职要求
1. 8+ years of professional experience in software engineering, machine learning, or related technical roles. 2. Strong proficiency with Python and C++. 3. Experience with game development workflows, including debugging, profiling, and version control. 4. Solid understanding of deep neural network architectures and reinforcement learning concepts. 5. Experience with deep-learning frameworks such as Pytouch, Tensorflow. 6. Experience with distri…
工作职责
You will build and own the infrastructure foundation of our reinforcement learning framework, enabling RL-driven gameplay systems that can scale across current and future UE5 projects. This is a hands-on, hybrid role that sits between ML research and game/engine engineering. The focus is on turning research ideas into robust, deployable, production-ready systems that run inside real game environments. You will: 1. Collaborate with the gameplay team to deliver machine learning and Al solutions that enhance the game experience on Varsapura, our upcoming flagship title. 2. Partner closely with gameplay engineers to prototype, optimize, and productionize reinforcement learning pipelines. 3. Take ownership of the technical roadmap for RL infrastructure, identifying bottlenecks and driving improvements in reliability, scalability, and iteration speed. 4. Deploy and operate learning agents in live or simulated UE-based environments, and optimize infrastructure for runtime inference.
团队介绍 我们是京东科技云事业部AI Infra团队,致力于大模型核心技术的前沿创新与应用。我们专注于业界领先的大模型创新算法及框架研发,构建极致高效的基础大模型训练、推理与渲染一体化平台,提供高吞吐高可用、低成本低延迟的大模型服务。我们的核心使命是高效支持京东自研和业界主流开源基础模型的训练、推理与渲染服务,驱动京东集团内外部的智能体/具身/全模态等大模型业务生态及应用。我们团队秉承技术驱动、创新为本的理念,为每一位成员提供广阔的成长空间和富有挑战性的项目。 工作内容 1.研发智能体/具身/全模态大模型算法,结合RL Infra后训练基座Scale-Law优化,提高大模型训练、生成和仿真渲染效能; 2.基于MoE/DiT大模型架构,融合样本均衡/多P并行/压缩/量化/剪枝/算子融合等技术,进行算法与系统Co-Design优化,并推动业务落地; 3.追踪业界最新技术进展,开展大模型算法与RL Infra训练、生成和仿真渲染相关创新,发表高影响力论文,打造业界一流的大模型RL Infra服务能力。

1、负责Agent的设计与效果优化,通过Agent架构优化(工具、上下文管理、编排等)和模型优化(Agentic RL等具体任务的Post-Training),产出效果领先的Agent; 2、探索AgentArchitectures/Structures的上限,在Agent应用研究中最大程度释放模型的能力,研究Self-Evolving AI System,实现Self-Improving Agents; 3、设计和开发领先AI应用和解决方案原型,验证产品概念和需求,构建应用评估并优化Agent效果,为电商场景的AI应用提供领先的Agent解决方案。
我们相信,通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段:从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与 多模态、强化学习、自进化 Agent 系统 等前沿方向,探索超越纯预训练范式的新能力边界,构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建 设计并实现面向 推理能力、策略优化和长期表现 的后训练方法 探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法 将 Post-Training 视为 系统级优化问题,而非单次调参或 reward hacking 2. 强化学习与持续进化机制 设计基于试错和反馈的训练闭环(例如,Natural Language FeedBack),使模型具备自我修正和能力生长 探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用 研究长期学习(Lifelong Learning)、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型(尤其是视频、时序感知)的 Post-Training 研究 探索从“语言建模”走向“世界建模”的训练目标与评估方式 研究感知、行动与决策的联合优化,而非简单模态拼接 4. Agent 与自进化系统 构建“可训练的 Agent 系统”,而不仅是工具调用的外壳 设计 Agent 的记忆、学习、反思与策略更新机制 将 Agent 视为一个 持续演化的产品级智能体 5. 新范式与新架构探索 对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的 探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性 参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进