logo of antgroup

蚂蚁金服蚂蚁集团-蚂蚁技术研究院-大规模强化学习算法与系统研究员

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1. 硕士以上学历,博士优先
2. 在分布式系统领域或者并行计算领域有3年以上研究和实践经验
3. 有独立研究能力,在相关领域有论文成果
4. 熟悉深度学习大模型的相关基础知识,对于强化学习大模型充满热情,参与过相关算法项目者优先。

工作职责


强化学习是提升大模型推理能力的重要范式。大模型本身参数量大,训练资源消耗高,加上强化学习算法流程复杂,要开发灵活又高效的强化学习系统有诸多挑战,而大规模强化学习基础设施又是开展强化学习算法研究的基础,目前需要以下方向的研究:
1. 高效灵活的面向大模型的强化学习训练系统:能够支持各种强化学习复杂算法,同时支持大规模多卡高效率稳定训练。
2. 复杂强化学习算法在大规模计算下的并行化:强化学习算法普遍需要串行计算,对于规模化(scale up)大规模训练带来诸多挑战,而规模化又是推理能力提升的关键,因此需要研究在规模化前提下的强化学习算法。

在本岗位,你将参与或主导相关领域的研究,并产出有影响力的成果并赋能业务部门。
包括英文材料
学历+
分布式系统+
深度学习+
大模型+
强化学习+
算法+
相关职位

logo of antgroup
社招3年以上技术-研究

围绕AReaL系统,开展面向大模型及通用Agent的大规模强化学习算法的前沿研究。围绕算法工程一体化设计,复杂agent链路搭建,大规模自动化面向智能体的数据合成与清洗,以工程驱动算法进展,最终产出sota的开源推理/agent模型

更新于 2025-09-04
logo of antgroup
实习蚂蚁技术研究院长

参与大模型数据侧的前沿研究工作。你将与顶尖的研究团队合作,探索数据在大模型训练、优化和应用中的核心作用,推动大模型数据智能领域的创新。

logo of antgroup
社招3年以上技术-研究

"我们团队将致力于探索新型LLM架构的训练与推理加速技术,推动模型结构与算法层面的创新,全面提升LLM的效率与性能。 1. 研发Diffusion LLM的高效训练与推理框架,实现其推理性能1000倍的提升,突破现有扩散模型在语言生成中的效率瓶颈 2. 和LLM算法研究员合作,通过算法和系统的co-design,加速现有LLM的训练和推理 3. 针对新型LLM优化关键算子与分布式并行计算策略,显著降低其训练与推理成本 4. 开发面向LLM算子与并行计算的自动化优化框架,为算法研究人员提供一站式的自动优化解决方案,显著提升模型结构的开发效率与系统性能。"

更新于 2025-09-05
logo of antgroup
社招3年以上技术-研究

我们团队将致力于探索新型LLM架构的训练与推理加速技术,推动模型结构与算法层面的创新,全面提升LLM的效率与性能。 1. 研发Diffusion LLM的高效训练与推理框架,实现其推理性能1000倍的提升,突破现有扩散模型在语言生成中的效率瓶颈 2. 和LLM算法研究员合作,通过算法和系统的co-design,加速现有LLM的训练和推理 3. 针对新型LLM优化关键算子与分布式并行计算策略,显著降低其训练与推理成本 4. 开发面向LLM算子与并行计算的自动化优化框架,为算法研究人员提供一站式的自动优化解决方案,显著提升模型结构的开发效率与系统性能。

更新于 2025-09-28