蚂蚁金服蚂蚁集团-RL Agent研发专家-北京&上海&杭州

社招全职5年以上技术类-算法2025-12-30地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 熟悉 Python 研发，熟悉并行计算、AI Agent 系统等任一领域的专业知识；
2. 能够熟练部署和使用主流 AI 模型和工具，了解 Prompt 和 Context Engineering 等调优手段；
3. 熟悉 agent workf…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 研发 Agentic 强化学习工程，包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力；
2. 研发工具和 Agent 合成工程，包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

AI agent+

还有更多 •••

登录查看完整学习资料

相关职位

Embodied Agent RL算法实习生

实习

1、研发面向自动驾驶与机器人场景的 embodied agent 决策算法，探索 RLHF / RLAIF、offline RL、online RL、imitation learning 与 world model 的联合优化，提升 Agent 在真实环境中的长程规划与任务执行能力； 2、设计奖励函数、verifier、safety shield 与仿真环境，系统解决稀疏奖励、安全约束、信用分配、泛化性与 sim2real 迁移等核心问题； 3、构建高层 planner 与低层 policy 的分层优化框架，结合 VLM/VLA、状态估计、工具调用与环境反馈，实现 perception-planning-action 的闭环决策； 4、建立 agent 训练与评测体系，围绕任务完成率、规划深度、规则遵循、异常恢复、样本效率、实时性与安全性开展系统评估和迭代； 5、参与真实车端/机端的算法部署、灰度验证与数据回流，推动从仿真到现实、从 demo 到闭环系统的持续优化。

更新于 2026-03-20北京|上海

【北斗】大模型算法研究员（Agent RL/RAG/多模态技术）

校招核心本地商业-基

我们正在构建下一代企业级 AI 知识中枢——不是一个实验室里的 Demo，而是一套正在真实运转、服务数万人的智能系统。从支撑百万级文档的智能问答引擎，到覆盖全公司的 AI 办公助手，我们的技术每天都在改变真实用户的工作方式。而现在，我们正在迈向更具野心的目标：构建企业的组织认知系统（Organizational Intelligence）——让 AI 不仅回答问题，更能理解组织如何运转、知识如何流动、决策如何形成。通过连接文档、会议、IM、代码、项目与业务流程，我们正在定义企业 AI 的三层核心架构：Memory — 组织记忆：可持续沉淀、持续演化的知识底座；Cognition — 组织认知：理解上下文、识别模式、辅助决策；Agent — 智能行动：自主规划、多步执行、自我进化。核心职责： 1、多模态 RAG 架构设计面向文本、图像、表格、视频的统一检索增强生成框架，攻克跨模态知识索引与融合的核心挑战，让企业知识库中的每一种信息形态都能被精准理解和召回。 2、Agent 强化学习与自主规划探索基于 RL 的工具调用与任务规划能力，实现多轮多步骤复杂办公任务的自主执行，构建具备长期记忆与自我进化能力的下一代办公 Agent。 3、大模型可信度与幻觉抑制研究幻觉检测与抑制技术，构建事实一致性评估体系与证据链追溯机制，确保企业级知识问答输出的每一个字都经得起验证。

更新于 2026-06-03北京|上海

【北斗】大模型算法研究员（Agent/RL/推理）

校招核心本地商业-业

【愿景】建成全球持续领先、客户长期信赖的履约技术平台，打造市场首选、社会认可、服务10亿用户的配送品牌。【你将参与】方向一：Agent技术体系研究与落地 1.设计并构建面向真实业务场景的Agent技术体系，涵盖任务规划、工具调用、多轮推理、自我反思与纠错等核心模块 2.深入抽象业务核心问题，建立可量化的评估反馈信号，驱动Agent在复杂履约场景中实现可度量的效果提升 3.探索Multi-Agent协作框架，研究Agent在千万级并发场景下的可靠性、安全性与成本效率方向二：LLM后训练算法研究 1.负责面向特定业务场景的指令精调（SFT）、偏好对齐（RLHF/DPO/GRPO等）全链路研究与工程落地 2.研究ScalableOversight、持续学习、AI和环境反馈的强化学习（RLXF）等前沿方向。同时探索奖励模型与反馈机制、可泛化的细粒度过程监督和奖励建模等，提升模型在复杂推理与工具调用任务上的能力上限 3.主导训练数据的质量工程，包括数据清洗、合成数据构建及标注流程设计 4.垂域模型定制化构建，领域认知智能突破，探索小样本场景自演进架构设计、可信推理机制构建等方向方向三：评测与数据体系建设 1.设计覆盖Agent行为、模型能力、业务指标的多维评测体系，建立自动化的诊断与归因链路 2.与业务团队深度协作，构建端到端的训练-评估-迭代闭环，将研究成果转化为线上可量化的业务收益方向四：前沿跟踪与对外输出 1.持续追踪NeurIPS/ICML/ICLR/ACL等顶会最新进展，具备将前沿论文快速工程化落地的能力 2.鼓励将内部研究成果整理为学术论文，向行业输出技术影响力

更新于 2026-06-03北京

研究型实习生-融合多模态的Agent+RL研究

实习阿里巴巴研究型实

专注于多模态智能体（Agent）及强化学习（RL）的研究与开发，如 browser use 等，推动下一代智能决策系统的创新。主要职责包括： 1. 设计和构建基于 Qwen 系列模型的多模态 Agent，使其能够高效处理文本、图像、视频等多种信息，执行复杂任务； 2. 实现和训练强化学习算法，探索如何在多模态环境下优化智能体的决策策略； 3. 开发数据采集和环境建模工具，构建逼真的多模态交互环境； 4. 参与系统评估与优化，设计高效的验证机制，确保智能体的稳定性与泛化能力； 5. 撰写研究论文、技术文档，与团队共同推动技术突破，并提升行业影响力。

更新于 2026-07-27北京|杭州