logo of antgroup

蚂蚁金服【蚂蚁星-Plan A】算法工程师-智能体 (强化学习方向)(实习)

实习兼职蚂蚁星- Plan A人才计划实习地点:北京 | 上海 | 杭州状态:招聘

任职要求


有人工智能和大模型相关开发和研究经历,发表过顶级会议论文,有极强自学能力和求知欲,代码工程能力强。

工作职责


AReaL团队聚焦强化学习技术,结合大模型泛化能力,研发开源开放的决策模型和强化学习训练系统,并应用于通用智能体模型和产品。

1. AReaL团队聚焦强化学习技术,结合大模型泛化能力,研发开源开放的决策模型和强化学习训练系统,并应用于智能体方向;
2. 参与蚂蚁自研强化学习推理模型的算法和训练系统研发。
包括英文材料
大模型+
相关职位

logo of antgroup
校招2026届蚂蚁星

AReaL团队聚焦强化学习技术,结合大模型泛化能力,研发开源开放的决策模型和强化学习训练系统,并应用于通用智能体模型和产品。 1. AReaL团队聚焦强化学习技术,结合大模型泛化能力,研发开源开放的决策模型和强化学习训练系统,并应用于智能体方向; 2. 参与蚂蚁自研强化学习推理模型的算法和训练系统研发。

logo of antgroup
校招蚂蚁星计划 -

1.负责具身智能的核心算法研发,聚焦强化学习(RL)与模仿学习(IL)技术,推动智能体在复杂物理环境中的感知、决策与行动能力; 2.设计并实现基于强化学习的端到端训练框架,解决稀疏奖励、多任务学习、长周期规划等挑战性问题; 3.开发高效的模仿学习算法,结合人类示范数据与自主探索策略,提升智能体在真实场景中的泛化性与安全性; 4.针对机器人控制、多模态感知-动作闭环等场景,优化算法在计算效率、实时性与鲁棒性方面的表现; 5.与硬件、仿真团队紧密协作,推动算法在实体机器人或虚拟环境中的部署与验证。

logo of antgroup
实习蚂蚁星- Pla

1.负责具身智能的核心算法研发,聚焦强化学习(RL)与模仿学习(IL)技术,推动智能体在复杂物理环境中的感知、决策与行动能力; 2.设计并实现基于强化学习的端到端训练框架,解决稀疏奖励、多任务学习、长周期规划等挑战性问题; 3.开发高效的模仿学习算法,结合人类示范数据与自主探索策略,提升智能体在真实场景中的泛化性与安全性; 4.针对机器人控制、多模态感知-动作闭环等场景,优化算法在计算效率、实时性与鲁棒性方面的表现; 5.与硬件、仿真团队紧密协作,推动算法在实体机器人或虚拟环境中的部署与验证。

logo of antgroup
校招2026届蚂蚁星

1.负责具身智能的核心算法研发,聚焦强化学习(RL)与模仿学习(IL)技术,推动智能体在复杂物理环境中的感知、决策与行动能力; 2.设计并实现基于强化学习的端到端训练框架,解决稀疏奖励、多任务学习、长周期规划等挑战性问题; 3.开发高效的模仿学习算法,结合人类示范数据与自主探索策略,提升智能体在真实场景中的泛化性与安全性; 4.针对机器人控制、多模态感知-动作闭环等场景,优化算法在计算效率、实时性与鲁棒性方面的表现; 5.与硬件、仿真团队紧密协作,推动算法在实体机器人或虚拟环境中的部署与验证。