logo of antgroup

蚂蚁金服蚂蚁集团-Code Agent 后训练算法专家-健康事业群

社招全职5年以上技术类-算法地点:上海 | 杭州状态:招聘

任职要求


1. 学历背景
硕士/博士学位,计算机科学、人工智能、软件工程、数学、自动        化或相关专业优先。
2. 编程与工程能力
具备扎实的编程功底与软件工程素养,精通 Python,熟悉 C/C++;对代码生成、程序分析、编译原理、软件测试等领域有系统性理解;能够独立构建和维护复杂的实验pipeline,具备良好的代码规范与工程落地能力。
3. 强化学习理论与实践
深入理解强化学习核心理论(PPO、GRPO、DPO 及其变体),能够从数学原理层面分析策略梯度估计的方差控制、KL散度约束、价值函数基线设计等关键问题;有将 RL 算法应用于语言模型后训练的实际经验,了解 RLHF/RLAIF 的完整技术栈。
4. 大语言模型后训练经验
熟悉大语言模型的 SFT → Reward Modeling → RL 全链路后训练流程,理解 Alignment、Instruction Following、Chain-of-Thought 等核心概念;有独立完成过至少一个完整后训练实验的经验,对训练过程中的常见问题(奖励坍缩、模式坍缩、过度优化等)有实际应对经验。
5. 分布式训练与系统优化
熟练掌握至少一种主流分布式训练框架(DeepSpeed、Megatron-LM、FSDP、v…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. Code Agent 强化学习训练体系设计与落地
负责大规模语言模型在后训练阶段(Post-Training)面向 Code Agent 场景的核心算法研发,设计端到端的 RL 训练流程,涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习,探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。
2. 代码环境交互与多步决策优化
构建真实且可扩展的代码执行沙箱环境(Sandbox),支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互;研究多步代码推理与规划算法(如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配),提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。
3. 代码奖励信号设计与奖励模型构建
设计多层次、细粒度的代码奖励信号体系,融合可执行性验证(编译通过、测试用例通过率)、代码质量评估(可读性、效率、安全性)、需求对齐度等多维度反馈;研究如何利用自动化测试生成、变异测试(Mutation Testing)、静态分析工具等构建可靠的过程奖励模型(Process Reward Model),解决代码场景中奖励稀疏、奖励欺骗(Reward Hacking)以及部分可观测性等核心难题。
4. 泛化性与迁移能力提升
研究如何通过后训练阶段的课程学习(Curriculum Learning)、跨语言/跨领域任务混合训练、元学习(Meta-Learning)等策略,提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力;探索代码推理能力向通用推理(数学、逻辑、科学问题)的正向迁移路径,推动模型整体 AGI 泛化水平。
5. 数据飞轮与自我进化机制
设计 Code Agent 的自我对弈与自我改进闭环:通过 Agent 自主探索生成高质量训练轨迹(Trajectory),结合拒绝采样(Rejection Sampling)、自我验证(Self-Verification)、自我修复(Self-Repair)等机制构建可持续的数据飞轮,实现模型能力的迭代自举(Bootstrapping),减少对人工标注数据的依赖。
6. 大规模分布式训练系统与工程协同
与基础架构团队紧密协作,针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点,设计并优化异步/同步混合的大规模分布式 RL 训练架构;解决长序列代码上下文下的显存瓶颈与吞吐效率问题,实现算法创新与系统性能的高效协同。
包括英文材料
学历+
Python+
C+
C+++
编译原理+
强化学习+
算法+
RLHF+
SFT+
FSDP+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-算法

大模型开启了崭新的智能化时代,代码智能化将是智能化革命的核心力量。围绕AI Coding,从code model到coding copilot再到coding agent,我们进行了深入的技术建设,打造了国内最受欢迎的智能编码助手通义灵码,并不断探索新的产品形态,欢迎一起来做改变世界的代码智能技术,具体详见:https://tongyi.aliyun.com/lingma 职位描述: 1. 负责软件工程大模型(Agentic LLM for Software Engineering)的训练和研究等,包括但不限于Agentic RL、Reward Systems、Environment Scaling等。 2. 打造自主编码智能体的核心技术,包括但不限于Memory、Context Engineering、Tools-use、Reasoning等。 3. 将上述技术在通义灵码及其他创新产品中进行大规模应用落地。

更新于 2025-10-29北京|杭州
logo of tongyi
社招1年以上技术类-算法

我们致力于构建能够执行、扩展并自我进化的自主系统。我们相信解决Coding问题是实现 AGI 的关键路径。如果能构建一个超智能的 Coding Agent,那么和数字世界相关的工作都将随之被扩展,并为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过 Scaling 海量数字世界数据结合大规模合成数据,来提升 Computer-Use Agent 的 Grouding 能力。 (2)通过 Long Horizon 的方式进行强化训练,结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。

更新于 2025-07-31北京|杭州|上海
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海
logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder 团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的 coding agent / digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过 Scaling 海量数字世界数据结合大规模合成数据,来提升 Computer-Use Agent 的 Grouding 能力。 (2)通过 Long Horizon 的方式进行强化训练,结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。

更新于 2026-03-19北京|杭州|上海