地平线【2026届校招】强化学习算法工程师

校招全职算法序列2025-07-04地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 机器学习、计算机、数学、统计学相关专业硕士/博士；
2.掌握强化学习基础理论，熟悉主流强化学习算法（PPO、SAC、GRPO及其变种），有一定的强化学习项目经验（OpenAI Gym、Spinning Up、CleanRL、Open-R1、R1-V、IsaacSim等）。
3.  深入了解数据结构、算法、并行编程、大…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

探索下一代端到端自动驾驶系统的强化学习训练范式，构建高效稳定的大规模强化学习闭环训练框架，提升强化学习的数据效率、训练效率、稳定性、场景泛化性，验证scalling law，解决sim2real和长尾问题，推动强化学习算法在物理世界的落地应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

强化学习+

算法+

Gymnasium+

数据结构+

C+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

算法工程师-机器学习（T-Star Lab 2026届实习）

实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目，继承“阿里星〞的使命与愿景，面向全球招募顶尖技术人才。首次开设实习生专项招聘，面向2025年10月后毕业的校优秀技术同学。期待你们在淘天，通过极具挑战的前沿课题与亿级规模的海量数据、应用场景，探索和实践最前沿的Al技术，在有价值的业务场景落地技术成果。在这里，你将参与机器学习、深度学习领域的技术研发工作，包括但不限于神经元网络模型设计与优化、强化学习、迁移学习、主动学习、维度降低、核方法、谱方法、特征提取与稀疏学习、等级学习、推荐、随机优化等的算法和系统研发等；在这里，你将进行机器学习尤其是深度学习前沿问题的探索与研究，结合未来实际应用场景，提供全面的技术解决方案；在这里，你将有机会负责提供分布式的算法实现的解决方案，大幅提升算法计算规模和性能；在这里，你将参与提供大数据分析建模方案，沉淀行业解决方案，协助拓展业务边界。加入我们，共同专注于大数据之上的机器学习算法研究与应用。将对人工智能的极大热情投入到挑战各种实际应用难题中。来吧，我们等你加入！ T-Star实习可以带给你什么？ ꔷ ①加入前沿技术探索队伍，参与顶级课题研究，有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生，提前解锁淘天顶级技术岗位，实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时，将获得直通正式批次终面的机会；参与T-Star实习且表现优秀的同学，提供T-Star转正Offer。

更新于 2025-05-07北京|杭州

【2026校招】强化学习算法工程师（北京）

校招

1、负责强化学习相关技术在休闲游戏中自动打关及关卡难度调节的落地应用； 2、参与强化学习算法实现及框架搭建，探索强化学习在游戏生命周期各个阶段的应用方向； 3、参与深度学习基础平台的功能选代，持续研发算法与优化性能； 4、跟踪分析工业界及学术界相关方向最新进展。

北京

【2026届校招】智能驾驶强化学习算法工程师

校招算法序列

智能驾驶系统产品线大规控部门负责城区、高速、停车场等全场景高阶辅助驾驶系统的规控和预测算法开发，同时搭建完善的仿真评测体系提升研发质量和效率。开发理念：打破惯性思维，根据问题本质寻找答案和设计解决方案；不技术自嗨，守住性能底线后再做技术创新，用实车效果说话；用数据驱动的思维做开发，做好数据闭环，注重评测迭代；不做简单的规则堆叠，传统方法要提炼简洁优雅的“解析解”；重视工具开发，提升研发效率，打开算法黑盒，尽量做解释性强的方案。精益求精，打磨产品细节，做出亮点，提升产品体验。 1. 负责轨迹预测、行为决策、路径规划和运动控制等算法开发，并完成嵌入式量产平台部署； 2. 基于海量数据进行道路参与者行为预测算法研发，设计高性能、高准召、高稳定的预测模块； 3. 开发交互式决策和预测模型，改善自动驾驶车辆在复杂环境中的应对能力； 4. 负责自动驾驶系统产品级仿真引擎的架构设计，仿真平台自动化测试及可视化工具链的构建； 5. 构建可扩展的云端仿真框架，以在集群环境中运行批量仿真模拟，减少云端部署和运行成本； 6. 构建完善仿真场景库替代大部分路测，同时生成挑战性的场景增广路测能力； 7. 建立数据自动标注、难例批量挖掘和分析机制工具链，通过数据闭环持续提升算法能力。

更新于 2025-07-04北京|上海

【2026届校招】端到端仿真算法工程师

校招算法序列

1.探索并研发下一代自动驾驶仿真核心算法,推动技术创新与迭代。 2.开发针对端到端自动驾驶模型的场景重建算法,包括障碍物重建、地图元素重建等。 3.优化场景重建算法的精度和性能,确保算法在实际应用中的可行性和高效性。

更新于 2025-07-02北京|上海