logo of antgroup

蚂蚁金服蚂蚁集团-蚂蚁技术研究院-大模型数据算法研究员

社招全职技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 海内外高校计算机科学、人工智能、数据科学、数学等相关专业毕业。
2. 技术栈:
	•	精通Python编程,具备扎实的算法数据结构机器学习基础。
	•	精通深度学习大模型框架(如PyTorch、Huggingface transformerLangChainvLLMDeepSpeedMegatron-LM等)。
	•	精通大模型的基本原理、训练和评估流程。
3. 项目经验(满足2项+优先):
	•	主导过亿级token量级的大模型预训练数据清洗项目
	•	在NeurIPS/ICLR/ICML/ACL等顶会发表过大模型数据侧算法的相关论文
	•	开发过企业级LLM数据治理工具
	•	具有复杂Agent系统的决策数据优化经验
4. 论文阅读与实现能力:能够快速阅读和理解顶级会议(如NeurIPSICLRICML、ACL等)的论文,并复现算法。
5. 团队合作:良好的沟通能力和团队协作精神,能够与团队成员高效合作。

工作职责


1. 构建百亿-千亿级参数大模型的工业化数据管道原型系统,主导预训练数据(多语言/多模态)的数据质量治理体系设计,开发数据去噪、清洗、打标、去偏和毒性检测算法
2. 构建大模型多维度评估体系:开发面向领域任务的细粒度评估框架,设计红蓝军对抗性测试集,在细粒度层面建立能力-数据关联分析模型
3. 构建大模型Agent应用场景的交互数据闭环系统,开发自动化数据标注、推理轨迹数据监督和治理、幻觉检测和消除等技术模块
4. 研究预训练和后训练的数据智能新架构、新流程和新算法,包括但不限于小样本数据蒸馏、课程学习策略优化、数据价值量化评估等,并实现先进方法的工程化落地
5. 研究基于LLM的合成数据生成框架,探索多模态数据合成(代码/数学推理/跨模态对齐)方法,探索多模态思维链合成增强、对抗性和合作性数据增强等技术路线
包括英文材料
数据科学+
Python+
算法+
数据结构+
机器学习+
深度学习+
大模型+
PyTorch+
Transformer+
LangChain+
vLLM+
DeepSpeed+
Megatron+
NeurIPS+
ICML+
数据治理+
AI agent+
相关职位

logo of antgroup
社招技术类-算法

蚂蚁集团是世界顶尖互联网金融科技公司。蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代技术前沿,帮助蚂蚁构建下一代技术发动机。 蚂蚁技术研究院深度学习实验,由在深度学习、大模型领域有广泛影响的学者领衔,致力于下一代高准确性、高效率AGI大模型研究和探索,实现世界级的技术创新和影响。团队成员深耕深度学习、大模型领域多年,多位成员具有上万的学术引用。 实验室技术氛围浓厚,适合有探索精神和挑战精神的青年才俊。在这里,你有充分的训练资源和数据资源,有专业的讨论和指导,有和世界领先高校和实验室交互的机会。在优质的成长环境中,可以让你快速成长。 职位描述: 参与下一代AGI大模型的探索和研究,包括但不限于算法创新;技术创新论文的撰写;开源对外;国际会议技术影响交流等;

更新于 2025-06-18
logo of antgroup
校招蚂蚁星计划 -

蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有​​顶级资源支持​​包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与​: - 下一代AGI大模型研发     a. 探索更高效的训练架构     b. 突破现有模型的推理与泛化能力     c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式     a. math/code数据饱和后的后训练时代数据     b. 合成数据,突破全球可用数据上限     c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源     a. 撰写高质量技术论文,推动学术边界     b. 构建开源工具链,降低AGI研发门槛     c. 与全球开发者社区互动,分享你的成果

logo of antgroup
校招2026届蚂蚁星

蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有​​顶级资源支持​​包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与​: - 下一代AGI大模型研发     a. 探索更高效的训练架构     b. 突破现有模型的推理与泛化能力     c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式     a. math/code数据饱和后的后训练时代数据     b. 合成数据,突破全球可用数据上限     c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源     a. 撰写高质量技术论文,推动学术边界     b. 构建开源工具链,降低AGI研发门槛     c. 与全球开发者社区互动,分享你的成果

logo of antgroup
社招3年以上技术-研究

围绕AReaL系统,开展面向大模型及通用Agent的大规模强化学习算法的前沿研究。围绕算法工程一体化设计,复杂agent链路搭建,大规模自动化面向智能体的数据合成与清洗,以工程驱动算法进展,最终产出sota的开源推理/agent模型

更新于 2025-09-04