蚂蚁金服【蚂蚁星-Plan A】算法工程师-语料优化

校招全职蚂蚁星计划 - Plan A地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 热爱人工智能领域，对探索新事物充满热情；
2. 硕士及以上学历，计算机科学、人工智能或相关专业背景；
3. 熟练掌握机器学习、自然语言处理、大语言模型等相关领域的基本理论和算法，具备扎实的数学基础；
4. 熟练掌握Python编程语言，熟悉主流深度学习框架（如PyTorch）；
5. 具备良好的分析和解决问题能力，能够独立思考并解决复杂的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队主要负责蚂蚁集团大语言模型的语料优化，涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。
1. 负责大语言模型各阶段训练语料的优化工作，包括预训练、后训练、强化学习训练阶段，具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等；
2. 负责端到端地优化基座模型的各项关键能力，包括数学、代码、推理、对话等能力，具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等；
3. 负责研发语料优化相关的基础设施，包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等；
4. 跟踪和研究大模型领域的前沿技术方向，包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等，推动技术创新并应用到基座模型训练中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

NLP+

算法+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

【蚂蚁星-Plan A】算法工程师-语料优化

校招2026届蚂蚁星

团队主要负责蚂蚁集团大语言模型的语料优化，涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作，包括预训练、后训练、强化学习训练阶段，具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等； 2. 负责端到端地优化基座模型的各项关键能力，包括数学、代码、推理、对话等能力，具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等； 3. 负责研发语料优化相关的基础设施，包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等； 4. 跟踪和研究大模型领域的前沿技术方向，包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等，推动技术创新并应用到基座模型训练中。

北京|上海|杭州

【蚂蚁星-Plan A】算法工程师-语料优化（实习）

实习蚂蚁星- Pla

北京|上海|杭州

【蚂蚁星】大模型数据合成工程师

校招蚂蚁星计划 -

作为蚂蚁集团核心安全数据中枢，我们构建金融级全域智能安全防御体系，深耕风险防控、数据资产保护、网络攻防对抗、内容生态治理等关键领域。依托EB级全域安全数据资产与万亿级实时计算能力，为集团数字支付、数字互联生态、数金业务矩阵（网商银行、财富管理、保险科技）、数字科技输出及全球化业务提供全链路安全赋能。我们依托先进的大数据分析技术和机器学习算法，深度挖掘数据中潜藏的风险与威胁，通过智能预测与主动防御机制，实现安全事件的精准识别与快速响应。持续追踪前沿技术发展，整合大数据、大模型和AI生成技术，成功打造了规模超千亿的多模态安全训练数据集。这些高质量数据集已成为集团大模型安全基础训练语料，广泛应用于大模型安全防御、大模型去毒及身份核验等关键安全领域。加入我们，你将有机会投身于前沿技术的研发与应用，亲身探索全球领先的科技创新成果。我们不仅提供行业领先的薪酬福利体系，更致力于为你营造专业、开放且富有活力的工作氛围。如果你对安全技术与数据应用怀有热忱，渴望在充满创新机遇与专业挑战的环境中实现职业成长，我们诚挚邀请你加入安全大数据技术团队！让我们携手共建智能安全新未来！ 1.参与大模型预训练数据、sft数据、指令、CoT数据等样本处理计算和加工； 2.负责设计开发创新性数据合成算法，优化大模型训练中的高维稀疏数据表征与长尾分布处理； 3.负责搭建多模态数据生成工厂，探索文本、代码、图像的语义对齐与高质量合成，负责多模态数据分析与融合：处理文本、图像、音频等多模态数据，研发高效算法实现数据语义融合与精确解析； 4.设计先进的对抗式数据增强技术，提升噪声过滤精度并突破数据清洗瓶颈； 5.研究基于合成数据的大模型迭代机制，推动模型持续进化与提升性能。

北京|杭州

【蚂蚁星-Plan A】算法工程师-预训练

校招蚂蚁星计划 -

我们负责蚂蚁集团内基础人工智能技术的研发与创新，致力于通用人工智能的实现。研究范围涵盖广泛，不仅包括语言大模型、多模态大模型等前沿的大模型技术，也深耕优化算法、知识图谱等基础AI方向。我们自主研发并开源了百灵大模型系列，旨在打造更高效、更通用的AI技术底座。我们积极推动开放协作的AI生态建设，通过技术共享、产学研合作等方式，促进人工智能技术的普惠发展，推动AI技术在各行各业的深度应用。 1. 负责研发大语言模型预训练技术，如高效的新型llm模型架构、长窗口训练技术、pretrain scaling law、高效预训练策略等。 2. 负责研发基于强化学习的推理模型，如大规模强化学习、新型RL算法、testing time scaling等。

北京|上海|杭州