蚂蚁金服蚂蚁集团-Agentic RL 工程技术研发专家-北京/杭州
任职要求
1. 熟悉 Python 研发,熟悉并行计算、AI Agent 系统、沙箱技术技术等任一领域的专业知识; 2. 能够熟练部署和使用主流 AI 模型和工具,了解 Prompt 和 Context Engineering 等调优手段; 3. 熟悉 GRPO/PPO 等 RL 算法、AReaL/v…
工作职责
ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景。

【岗位亮点】 打造现象级AI产品:你的算法将服务数亿用户,利用行业最丰富的地理数据,扩展语义理解与路线生成的边界。 前沿技术实践场:深度参与垂类多模态大模型的训练与优化,探索多模态Agent+地图理解的无限可能。 真实场景大挑战:面对MLLM在地图任务下语义和空间的双重挑战,构建行业标杆级模型。 【团队成就】 我们团队致力于构建下一代核心智能驾驶体验,在过去四年持续创造多个突破性创新产品技术。 智能出行开拓者:连续4年推出行业标杆产品,包括: 2022年 红绿灯倒计时黑科技 (拯救千万路怒症的神级操作) 2023年 V2X车车对话系统 (让汽车学会"社牛"沟通) 2024年 AI领航红绿灯 (比驾校教练更懂路的老司机) 2025年 TrafficVLM-Agent 上线 (高德地图“天眼”功能) 2025年 RouteVLM-Agent上线 (路线生成的无限可能) 【你将参与】 1. 用AI解锁出行新玩法:基于海量地图数据与用户场景,研发支持从“用户任意query”到一条“用户偏好&地理空间对齐的可行路线”的规划大模型。 2. 打造行业领先的大模型应用:SFT微调、强化学习等技术,让大模型真正理解复杂出行需求中的时空语义关系。 3. 定义未来出行方式:打造Agent自进化机制,不断提升出行场景的agent能力边界。 4. 顶会论文产出:共同探索工业落地与科技前沿。
我们正在寻找一位对大模型和agent前沿领域充满热情的大模型算法工程师,重点聚焦于旅行智能体(Agent)技术的研发与训练。我们已经开发了飞猪问一问,也接入了千问,如果你对创造能够自主感知、决策和行动的智能系统感到兴奋,并希望在大模型与强化学习结合的前沿领域大展身手,那么这个职位将非常适合你。你将加入我们的核心算法团队: 1、负责设计和实现下一代具有推理和行动能力的AI智能体,推动其在复杂环境中的应用。 2、研究、设计并实现基于大模型的智能体训练框架,特别是Agentic Reinforcement Learning (Agentic RL) 相关算法,探索和实验多种智能体范式,如ReAct、CoT、ToT 等,并将其与强化学习相结合,开发和优化智能体的推理、规划、工具使用等核心能力。 3、参与大规模语言模型的预训练、有监督微调(SFT)和指令微调。

我们正在寻找一位对大模型和agent前沿领域充满热情的大模型算法工程师,重点聚焦于旅行智能体(Agent)技术的研发与训练。我们已经开发了飞猪问一问,也接入了千问,如果你对创造能够自主感知、决策和行动的智能系统感到兴奋,并希望在大模型与强化学习结合的前沿领域大展身手,那么这个职位将非常适合你。你将加入我们的核心算法团队: 1、负责设计和实现下一代具有推理和行动能力的AI智能体,推动其在复杂环境中的应用。 2、研究、设计并实现基于大模型的智能体训练框架,特别是Agentic Reinforcement Learning (Agentic RL) 相关算法,探索和实验多种智能体范式,如ReAct、CoT、ToT 等,并将其与强化学习相结合,开发和优化智能体的推理、规划、工具使用等核心能力。 3、参与大规模语言模型的预训练、有监督微调(SFT)和指令微调。