logo of xpeng

小鹏汽车强化学习算法实习生

实习兼职地点:上海状态:招聘

任职要求


1、27届-28届毕业同学,计算机/自动化/机器人等相关专业,硕博优先;
2、对物理AI有强烈兴趣,愿意深入解决RL落地的真实难题;
3、扎实的强化学习基础,熟悉PPO、GRPO、SAC等算法,有MuJoCo、Isaac Gym、CARLA等仿真平台经验;
4、有基于Autoregressio…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、研发面向自动驾驶的强化学习算法,解决奖励设计、环境交互、安全约束与样本效率等核心挑战;
2、设计奖励模型与仿真环境,构建从虚拟训练到真实迁移(Sim-to-Real)的可靠路径;
3、探索离线强化学习、模仿学习与RL的融合方案,提升算法在复杂交通场景中的泛化能力;
4、参与真实车端/机端的算法部署与闭环验证,推动RL在物理世界的落地;
5、与数据,仿真,infra团队协同,构建高效的RL开发框架,提升模型迭代效率。
包括英文材料
强化学习+
算法+
Gymnasium+
大模型+
还有更多 •••
相关职位

logo of kuaishou
社招1-3年J0011

1、参与亿级用户规模的电商推荐优化,提升内容电商观看时长、点击率、转化率、GMV、LTV等核心指标; 2、通过深度学习领域的研发工作,包括但不限于深度模型设计与优化、强化学习、迁移学习、图神经网络等的算法和系统提升预估效果; 3、通过推荐算法机制优化电商流量结构和GMV结构,促进电商生态的健康发展。

更新于 2026-03-31北京
logo of kuaishou
社招1-3年J0011

1、参与亿级用户规模的电商推荐优化,提升内容电商观看时长、点击率、转化率、GMV、LTV等核心指标; 2、参与机器学习、深度学习领域的核心研发工作,包括但不限于神经网络模型的设计与优化、迁移学习、强化学习、对比学习等的算法和系统研发; 3、针对海量用户行为数据,提供分布式算法实现的解决方案,大幅提升算法计算规模和性能; 4、参与推荐机制的顶层设计,优化电商流量结构和GMV结构,促进电商生态的健康发展。

更新于 2026-03-31北京
logo of netease
实习网易云音乐

【职位前言】 DeepSeek-R1的发布给世界带来了不小的震撼,更令人敬佩的是,无论是赶超OpenAI o1的模型效果,还是节省百万美元成本的工程优化,这背后的原理与实现都在官方发布的技术报告和开源项目中一一公开。 大语言模型的前沿研究将不再只是少数巨头才玩得起的项目,更多的研究者可以入局这场对人工智能探索的新征程。 如果您对模型背后的工程优化充满好奇(FP8混合精度训练、分布式专家并行等),想深入了解并上手实践,但又没有合适的计算资源与明确的优化目标,又对模型 post-training(GRPO强化学习、模型蒸馏等等)跃跃欲试,但又没有明确的应用场景和数据资源—— 那不妨来网易云音乐,和我们搭上这趟时代的列车,一起拆解硬核技术,聚焦于音乐业务中的搜索、推荐、广告场景,探索大模型的应用落地与高效部署。 【职位描述】 1、参与大模型在后训练和推理工程中的性能优化,结合底层硬件特性从混合精度训练、矩阵计算加速、注意力机制计算优化、GPU分布式并行等方面提升工程效率; 2、通过强化学习、模型蒸馏等方式,构建音乐领域具有 CoT 推理能力的大语言模型,应用于搜索、推荐、广告等业务场景。 【我们拥有】 1、音乐行业内海量用户独一无二的数据资源; 2、贴近实际的业务场景,让 idea 落地并发挥价值; 3、可观的计算资源,性能上还有极大的空间待与你一同挖掘; 4、鼓励创新探索、倡导悉心钻研、宽松融洽多元的团队氛围; 5、成果转换的支持,合作完成项目及论文,助力未来的职业发展。

更新于 2025-06-17杭州
logo of netease
实习网易伏羲

1、面向露天矿山矿卡运输场景,研究开发多车协同作业调度算法,提升矿卡运输效率; 2、负责算法仿真验证和算法模块的软件开发,撰写相关技术文档并完成专利、软著的申请。

更新于 2025-06-17杭州