蚂蚁金服蚂蚁集团-Code Agent 后训练算法专家-健康事业群

社招全职5年以上技术类-算法2026-07-08地点：上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 学历背景
硕士/博士学位，计算机科学、人工智能、软件工程、数学、自动        化或相关专业优先。
2. 编程与工程能力
具备扎实的编程功底与软件工程素养，精通 Python，熟悉 C/C++；对代码生成、程序分析、编译原理、软件测试等领域有系统性理解；能够独立构建和维护复杂的实验pipeline，具备良好的代码规范与工程落地能力。
3. 强化学习理论与实践
深入理解强化学习核心理论（PPO、GRPO、DPO 及其变体），能够从数学原理层面分析策略梯度估计的方差控制、KL散度约束、价值函数基线设计等关键问题；有将 RL 算法应用于语言模型后训练的实际经验，了解 RLHF/RLAIF 的完整技术栈。
4. 大语言模型后训练经验
熟悉大语言模型的 SFT → Reward Modeling → RL 全链路后训练流程，理解 Alignment、Instruction Following、Chain-of-Thought 等核心概念；有独立完成过至少一个完整后训练实验的经验，对训练过程中的常见问题（奖励坍缩、模式坍缩、过度优化等）有实际应对经验。
5. 分布式训练与系统优化
熟练掌握至少一种主流分布式训练框架（DeepSpeed、Megatron-LM、FSDP、v…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. Code Agent 强化学习训练体系设计与落地
负责大规模语言模型在后训练阶段（Post-Training）面向 Code Agent 场景的核心算法研发，设计端到端的 RL 训练流程，涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习，探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。
2. 代码环境交互与多步决策优化
构建真实且可扩展的代码执行沙箱环境（Sandbox），支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互；研究多步代码推理与规划算法（如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配），提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。
3. 代码奖励信号设计与奖励模型构建
设计多层次、细粒度的代码奖励信号体系，融合可执行性验证（编译通过、测试用例通过率）、代码质量评估（可读性、效率、安全性）、需求对齐度等多维度反馈；研究如何利用自动化测试生成、变异测试（Mutation Testing）、静态分析工具等构建可靠的过程奖励模型（Process Reward Model），解决代码场景中奖励稀疏、奖励欺骗（Reward Hacking）以及部分可观测性等核心难题。
4. 泛化性与迁移能力提升
研究如何通过后训练阶段的课程学习（Curriculum Learning）、跨语言/跨领域任务混合训练、元学习（Meta-Learning）等策略，提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力；探索代码推理能力向通用推理（数学、逻辑、科学问题）的正向迁移路径，推动模型整体 AGI 泛化水平。
5. 数据飞轮与自我进化机制
设计 Code Agent 的自我对弈与自我改进闭环：通过 Agent 自主探索生成高质量训练轨迹（Trajectory），结合拒绝采样（Rejection Sampling）、自我验证（Self-Verification）、自我修复（Self-Repair）等机制构建可持续的数据飞轮，实现模型能力的迭代自举（Bootstrapping），减少对人工标注数据的依赖。
6. 大规模分布式训练系统与工程协同
与基础架构团队紧密协作，针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点，设计并优化异步/同步混合的大规模分布式 RL 训练架构；解决长序列代码上下文下的显存瓶颈与吞吐效率问题，实现算法创新与系统性能的高效协同。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+

C+++

编译原理+

强化学习+

算法+

RLHF+

SFT+

FSDP+

还有更多 •••

登录查看完整学习资料

相关职位

大模型Code/Agent后训练算法研究员-(深圳)or(北京)or

社招2年以上微信支付技术

1.负责Code和Agent相关数据构建与治理，构建高质量、多样化的Code/Agent训练数据集，搭建数据迭代闭环，通过数据飞轮持续优化数据质量； 2.负责Agent运行环境与训练环境的构建与优化，构建高可用、可扩展的Agent仿真环境，保障Agent训练、测试及落地的稳定性与高效性； 3.负责Agentic RL在Code/Agent场景的训练，参与Agentic RL Infra建设及优化、Agentic RL 算法优化，持续提升Agentic RL训练的效率和稳定性。

更新于 2026-06-10上海

【北斗】CodeAgent后训练方向研究员（数据分析与ToSQL方向）

校招核心本地商业-基

我们致力于用科技创新为用户和生态伙伴创造超预期的交互体验和效率提升，依托生活服务领域多样化且复杂的业务场景，聚焦基座技术与公司战略级应用方向的深度融合，持续推动前沿技术的落地，同时积极探索和挑战技术的无人区，不断定义并刷新行业的最先进技术标准。 1、异构数据理解与数值推理：突破大模型在Table+文本混合形态下的信息丢失与幻觉瓶颈 2、Agentic RL与数据环境交互：构建基于代码执行沙盒与真实数据计算结果反馈的强化学习闭环 3、复杂推理与过程奖励（PRM）：构建细粒度过程奖励模型，研究Test-Time Compute策略与MCTS搜索

更新于 2026-06-03北京|上海

【基座大模型北斗实习】CodeAgent 后训练方向

实习核心本地商业-基

简介：不再是单纯的代码生成，你将直面当前大模型最薄弱的环节——对复杂表格（Table）与混合文本的深度理解，以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training，致力于突破数值处理天花板，赋予机器像顶尖数据科学家一样的洞察力。【核心探索】 1、异构数据理解与数值推理：突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据（如百万级复杂 CSV/Excel 结构）的表征优化与微调，大幅提升模型对数值规律的敏感度与跨表关联推理能力。 2、Agentic RL 与数据环境交互：摒弃传统 RLHF，构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中，实现代码编写与数据清洗能力的自我进化。 3、复杂推理与过程奖励（PRM）：针对多步业务分析任务，构建细粒度的过程奖励模型。研究 Test-Time Compute 策略，引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错，拉升逻辑推理天花板。

更新于 2026-04-03北京|上海

Code Agent 数据工程师

社招2年以上模型数据策略

无

更新于 2026-07-16北京