logo of horizon

地平线VLA强化学习算法实习生

实习兼职算法序列地点:北京状态:招聘

任职要求


1、硕士及以上学历,专业方向为计算机科学、自动化、机器人学或相关领域;
2、具备较强的研究能力与沟通能力,具有强烈的自驱力、责任心和团队合作精神,能独立思考并完成工作;
3、具有机器人操作算法训练经验;
4…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


VLA模型训练策略优化,主要研究强化学习和模仿学习在VLA上如何高效应用。
包括英文材料
学历+
算法+
Python+
还有更多 •••
相关职位

logo of momenta
实习研发

岗位职责 1、负责端到端决策规划算法的开发和迭代; 2、负责训练数据与评测数据的日常挖掘与维护; 3、负责端到端智驾大模型方案的研发迭代体系的建设与完善。

更新于 2026-01-06北京
logo of momenta
实习研发

1、负责端到端决策规划算法的开发和迭代; 2、负责训练数据与评测数据的日常挖掘与维护; 3、负责端到端智驾大模型方案的研发迭代体系的建设与完善。

更新于 2025-12-22北京
logo of xpeng
实习

1、研发面向自动驾驶的强化学习算法,解决奖励设计、环境交互、安全约束与样本效率等核心挑战; 2、设计奖励模型与仿真环境,构建从虚拟训练到真实迁移(Sim-to-Real)的可靠路径; 3、探索离线强化学习、模仿学习与RL的融合方案,提升算法在复杂交通场景中的泛化能力; 4、参与真实车端/机端的算法部署与闭环验证,推动RL在物理世界的落地; 5、与数据,仿真,infra团队协同,构建高效的RL开发框架,提升模型迭代效率。

更新于 2026-03-20上海
logo of meituan
实习核心本地商业-基

深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1. 感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对环境的空间理解,以及对复合任务的任务步骤拆解与任务状态判断能力。 2. 行动与控制:基于真机示教数据、增广数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3. 数据增广:通过仿真和world model等方式对真机遥操数据进行规模化增广,探索如何解决真机遥操数据的稀缺问题。

更新于 2025-12-25北京|上海