
地平线【2026届校招】强化学习算法工程师
任职要求
1. 机器学习、计算机、数学、统计学相关专业硕士/博士; 2.掌握强化学习基础理论,熟悉主流强化学习算法(PPO、SAC、GRPO及其变种),有一定的强化学习项目经验(OpenAI Gym、Spinning Up、CleanRL、Open-R1、R1-V、IsaacSim等)。 3. 深入了解数据结构、算法、并行编程、大规模数据处理等相关知识,至少精通 C/C++ 或 Python 编程,有ACM经验者优先; 4. 有计算机视觉、机器学习、机器人领域顶会(CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR/ICRA/CORL)或顶刊(TPAMI/IJCV/TIP/TRO)者优先,有顶级学术比赛成果或实际工程项目经验者优先。
工作职责
探索下一代端到端自动驾驶系统的强化学习训练范式,构建高效稳定的大规模强化学习闭环训练框架,提升强化学习的数据效率、训练效率、稳定性、场景泛化性,验证scalling law,解决sim2real和长尾问题,推动强化学习算法在物理世界的落地应用。

智能驾驶系统产品线大规控部门负责城区、高速、停车场等全场景高阶辅助驾驶系统的规控和预测算法开发,同时搭建完善的仿真评测体系提升研发质量和效率。 开发理念: 打破惯性思维,根据问题本质寻找答案和设计解决方案; 不技术自嗨,守住性能底线后再做技术创新,用实车效果说话; 用数据驱动的思维做开发,做好数据闭环,注重评测迭代; 不做简单的规则堆叠,传统方法要提炼简洁优雅的“解析解”; 重视工具开发,提升研发效率,打开算法黑盒,尽量做解释性强的方案。 精益求精,打磨产品细节,做出亮点,提升产品体验。 1. 负责轨迹预测、行为决策、路径规划和运动控制等算法开发,并完成嵌入式量产平台部署; 2. 基于海量数据进行道路参与者行为预测算法研发,设计高性能、高准召、高稳定的预测模块; 3. 开发交互式决策和预测模型,改善自动驾驶车辆在复杂环境中的应对能力; 4. 负责自动驾驶系统产品级仿真引擎的架构设计,仿真平台自动化测试及可视化工具链的构建; 5. 构建可扩展的云端仿真框架,以在集群环境中运行批量仿真模拟,减少云端部署和运行成本; 6. 构建完善仿真场景库替代大部分路测,同时生成挑战性的场景增广路测能力; 7. 建立数据自动标注、难例批量挖掘和分析机制工具链,通过数据闭环持续提升算法能力。
1、负责强化学习相关技术在休闲游戏中自动打关及关卡难度调节的落地应用; 2、参与强化学习算法实现及框架搭建,探索强化学习在游戏生命周期各个阶段的应用方向; 3、参与深度学习基础平台的功能选代,持续研发算法与优化性能; 4、跟踪分析工业界及学术界相关方向最新进展。

1. 搭建和维护Vision训练环境和数据集。 2. 负责感知算法与Vision ISP、CV联合训练。 3. 覆盖主流感知算法、消融实验,分析问题,输出报告。