小鹏汽车强化学习算法实习生

实习兼职2026-03-20地点：上海状态：招聘

扫码手机上打开

任职要求

1、27届-28届毕业同学，计算机/自动化/机器人等相关专业，硕博优先；
2、对物理AI有强烈兴趣，愿意深入解决RL落地的真实难题；
3、扎实的强化学习基础，熟悉PPO、GRPO、SAC等算法，有MuJoCo、Isaac Gym、CARLA等仿真平台经验；
4、有基于Autoregressio…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研发面向自动驾驶的强化学习算法，解决奖励设计、环境交互、安全约束与样本效率等核心挑战；
2、设计奖励模型与仿真环境，构建从虚拟训练到真实迁移（Sim-to-Real）的可靠路径；
3、探索离线强化学习、模仿学习与RL的融合方案，提升算法在复杂交通场景中的泛化能力；
4、参与真实车端/机端的算法部署与闭环验证，推动RL在物理世界的落地；
5、与数据，仿真，infra团队协同，构建高效的RL开发框架，提升模型迭代效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

强化学习+

算法+

Gymnasium+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

强化学习算法实习生

实习算法与软件

1. 参与多智能体协同场景的环境构建、数据合成与算法设计（SFT & RL 全流程）。 2. 探索可泛化、可拓展的 Agentic LLM 训练方法，提升 Agent 在真实业务场景中的表现。 3. 参与研究结果整理与高水平论文发表。

北京

强化学习算法实习生

实习算法序列

【岗位职责】 -突破认知边界：让自动驾驶系统从 “模仿行为” 进化为 “理解世界”，掌握物理因果与长程规划能力。 -革新训练范式：构建自博弈强化学习的全新训练与推理框架，大幅提升系统的安全性、鲁棒性与泛化能力。 -弥合虚实鸿沟：探索仿真与现实世界的无缝迁移，让训练出的策略在真实道路上同样可靠。

更新于 2026-03-16北京|上海|香港

强化学习算法实习生

校招算法序列

【岗位职责】 -突破认知边界：让自动驾驶系统从 “模仿行为” 进化为 “理解世界”，掌握物理因果与长程规划能力。 -革新训练范式：构建自博弈强化学习的全新训练与推理框架，大幅提升系统的安全性、鲁棒性与泛化能力。 -弥合虚实鸿沟：探索仿真与现实世界的无缝迁移，让训练出的策略在真实道路上同样可靠。

更新于 2026-03-16北京|上海|香港

VLA强化学习算法实习生

实习算法序列

VLA模型训练策略优化，主要研究强化学习和模仿学习在VLA上如何高效应用。

更新于 2026-01-28北京