logo of antgroup

蚂蚁金服【蚂蚁星-Plan A】算法工程师-语料优化

校招全职蚂蚁星计划 - Plan A地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 热爱人工智能领域,对探索新事物充满热情;
2. 硕士及以上学历,计算机科学、人工智能或相关专业背景;
3. 熟练掌握机器学习自然语言处理、大语言模型等相关领域的基本理论和算法,具备扎实的数学基础;
4. 熟练掌握Python编程语言,熟悉主流深度学习框架(如PyTorch);
5. 具备良好的分析和解决问题能力,能够独立思考并解决复杂的技术问题。
6. 具备较强的团队合作能力和沟通能力。

须在以下加分项中至少有1-2项表现突出:
1. 有大语言模型语料优化和模型训练相关的实习经历;
2. 参加过算法竞赛(如Kaggle、ICPC、ACM等)、信息学、数学、物理、化学竞赛,并取得优异成绩。
3. 在顶级国际会议/期刊(如NeurIPSICML、ACL、CVPR等)发表过论文。

工作职责


团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。
1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等;
2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等;
3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等;
4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。
包括英文材料
学历+
机器学习+
NLP+
算法+
Python+
深度学习+
PyTorch+
Kaggle+
NeurIPS+
ICML+
CVPR+
相关职位

logo of antgroup
校招2026届蚂蚁星

团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等; 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等; 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等; 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。

logo of antgroup
实习蚂蚁星- Pla

团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等; 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等; 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等; 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。

logo of antgroup
校招蚂蚁星计划 -

作为蚂蚁集团核心安全数据中枢,我们构建金融级全域智能安全防御体系,深耕风险防控、数据资产保护、网络攻防对抗、内容生态治理等关键领域。依托EB级全域安全数据资产与万亿级实时计算能力,为集团数字支付、数字互联生态、数金业务矩阵(网商银行、财富管理、保险科技)、数字科技输出及全球化业务提供全链路安全赋能。 我们依托先进的大数据分析技术和机器学习算法,深度挖掘数据中潜藏的风险与威胁,通过智能预测与主动防御机制,实现安全事件的精准识别与快速响应。持续追踪前沿技术发展,整合大数据、大模型和AI生成技术,成功打造了规模超千亿的多模态安全训练数据集。这些高质量数据集已成为集团大模型安全基础训练语料,广泛应用于大模型安全防御、大模型去毒及身份核验等关键安全领域。加入我们,你将有机会投身于前沿技术的研发与应用,亲身探索全球领先的科技创新成果。我们不仅提供行业领先的薪酬福利体系,更致力于为你营造专业、开放且富有活力的工作氛围。如果你对安全技术与数据应用怀有热忱,渴望在充满创新机遇与专业挑战的环境中实现职业成长,我们诚挚邀请你加入安全大数据技术团队!让我们携手共建智能安全新未来! 1.参与大模型预训练数据、sft数据、指令、CoT数据等样本处理计算和加工; 2.负责设计开发创新性数据合成算法,优化大模型训练中的高维稀疏数据表征与长尾分布处理; 3.负责搭建多模态数据生成工厂,探索文本、代码、图像的语义对齐与高质量合成,负责多模态数据分析与融合:处理文本、图像、音频等多模态数据,研发高效算法实现数据语义融合与精确解析; 4.设计先进的对抗式数据增强技术,提升噪声过滤精度并突破数据清洗瓶颈; 5.研究基于合成数据的大模型迭代机制,推动模型持续进化与提升性能。

logo of antgroup
校招蚂蚁星计划 -

我们负责蚂蚁集团内基础人工智能技术的研发与创新,致力于通用人工智能的实现。研究范围涵盖广泛,不仅包括语言大模型、多模态大模型等前沿的大模型技术,也深耕优化算法、知识图谱等基础AI方向。我们自主研发并开源了百灵大模型系列,旨在打造更高效、更通用的AI技术底座。我们积极推动开放协作的AI生态建设,通过技术共享、产学研合作等方式,促进人工智能技术的普惠发展,推动AI技术在各行各业的深度应用。 1. 负责研发大语言模型预训练技术,如高效的新型llm模型架构、长窗口训练技术、pretrain scaling law、高效预训练策略等。 2. 负责研发基于强化学习的推理模型,如大规模强化学习、新型RL算法、testing time scaling等。