logo of antgroup

蚂蚁金服【蚂蚁星-Plan A】算法工程师-后训练

校招全职2026届蚂蚁星- Plan A人才计划地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、数学等相关专业硕士及以上学历,深入理解 Transformer 架构及SFT/RLHF/DPO/PPO/GRPO等算法。
2. 编码能力:
1)熟练掌握 PythonPyTorch,具备分布式训练(如多机多卡调优)经验,高性能计算代码开发经验(如CUDA编程、SIMD指令优化)更佳;
2)深入理解算法数据结构,能针对LLM场景优化核心算法(如Attention计算、KV Cache管理)的时空复杂度;
3)熟悉代码调试与性能分析工具(gdb/pdb、Nsight Systems、PyTorch Profiler) 。
3. 学术能力:
1)以第一作者(或导师为第一作者,申请人为第二作者)身份在NeurIPSICMLICLR、ACL等顶会或刊物上(CCF-A类或同等级别)发表论文;
2)作为骨干参与实验室或导师的省级及以上大型科研项目;
3)获得国际级学术或竞赛奖项优先,如国际顶会best paper、ACM/ICPC金牌选手、Kaggle master等。

工作职责


作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。
1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向;
2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能;
3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。
包括英文材料
学历+
Transformer+
SFT+
算法+
Python+
PyTorch+
CUDA+
数据结构+
大模型+
缓存+
GDB+
Nsight+
NeurIPS+
ICML+
Kaggle+
相关职位

logo of antgroup
校招蚂蚁星计划 -

作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向; 2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能; 3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。

logo of antgroup
实习蚂蚁星- Pla

作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向; 2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能; 3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。

logo of antgroup
校招蚂蚁星计划 -

团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等; 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等; 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等; 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。

logo of antgroup
校招2026届蚂蚁星

团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等; 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等; 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等; 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。