logo of antgroup

蚂蚁金服蚂蚁集团-蚂蚁技术研究院-强化学习研究员

社招全职3年以上技术-研究地点:北京 | 上海 | 杭州状态:招聘

任职要求


"对于强化学习算法有一定理解,熟悉大模型的训练和推理框架,有很强的全栈算法工程能力。
对于数据清洗,合成,构造,模型评估,测试,agent工作流有足够经验和认识,拥抱开源,坚定的以工程推动算法为研究理念。
学习能力强,为人谦虚。"

工作职责


围绕AReaL系统,开展面向大模型及通用Agent的大规模强化学习算法的前沿研究。围绕算法工程一体化设计,复杂agent链路搭建,大规模自动化面向智能体的数据合成与清洗,以工程驱动算法进展,最终产出sota的开源推理/agent模型
包括英文材料
强化学习+
算法+
大模型+
AI agent+
相关职位

logo of antgroup
社招3年以上技术类-算法

强化学习是提升大模型推理能力的重要范式。大模型本身参数量大,训练资源消耗高,加上强化学习算法流程复杂,要开发灵活又高效的强化学习系统有诸多挑战,而大规模强化学习基础设施又是开展强化学习算法研究的基础,目前需要以下方向的研究: 1. 高效灵活的面向大模型的强化学习训练系统:能够支持各种强化学习复杂算法,同时支持大规模多卡高效率稳定训练。 2. 复杂强化学习算法在大规模计算下的并行化:强化学习算法普遍需要串行计算,对于规模化(scale up)大规模训练带来诸多挑战,而规模化又是推理能力提升的关键,因此需要研究在规模化前提下的强化学习算法。 在本岗位,你将参与或主导相关领域的研究,并产出有影响力的成果并赋能业务部门。

更新于 2025-06-18
logo of antgroup
校招蚂蚁星计划 -

蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有​​顶级资源支持​​包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与​: - 下一代AGI大模型研发     a. 探索更高效的训练架构     b. 突破现有模型的推理与泛化能力     c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式     a. math/code数据饱和后的后训练时代数据     b. 合成数据,突破全球可用数据上限     c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源     a. 撰写高质量技术论文,推动学术边界     b. 构建开源工具链,降低AGI研发门槛     c. 与全球开发者社区互动,分享你的成果

logo of antgroup
校招2026届蚂蚁星

蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有​​顶级资源支持​​包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与​: - 下一代AGI大模型研发     a. 探索更高效的训练架构     b. 突破现有模型的推理与泛化能力     c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式     a. math/code数据饱和后的后训练时代数据     b. 合成数据,突破全球可用数据上限     c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源     a. 撰写高质量技术论文,推动学术边界     b. 构建开源工具链,降低AGI研发门槛     c. 与全球开发者社区互动,分享你的成果

logo of antgroup
实习蚂蚁技术研究院长

职位描述:负责强化学习方向算法的创新研究