logo of meituan

美团强化学习算法工程师

社招全职核心本地商业-业务研发平台地点:北京 | 上海状态:招聘

任职要求


1. 技术背景:在以下至少一个领域有深入研究或实践经验:

1.1 强化学习(RL)算法(如PPO、DQN)或框架(Ray/RLLib)

1.2 大语言模型(LLM强化学习训练、推理算法(如GRPO、DAPO)或框架(如verl,openRLHF)

2. 精通PyTorch框架,具有大模型微调或RL训练的实战经验

3. 具备较强的团队协作能力和沟通能力,有较强的学习能力和业务分析及问…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责强化学习算法的研究、开发和应用,解决AI搜索等实际问题并提升业务效果。

2. 设计、实现、优化强化学习模型,包括但不限于价值迭代、策略梯度、模型预测控制等算法。

3. 跟踪强化学习领域的前沿研究进展,不断探索和创新,推动强化技术发展。

4. 与LLM的模型后训练相结合,迭代RL训练技术并实现业务模型的调优和落地。
包括英文材料
强化学习+
算法+
Ray+
大模型+
还有更多 •••
相关职位

logo of netease
社招1年以上网易伏羲

1、对接游戏项目需求,负责技术方案的设计和实现,不断迭代和优化项目效果; 2、持续改进算法和框架,开发和完善通用框架和SDK工具,提升游戏AI开发效率。

更新于 2025-06-16杭州
logo of mi
社招A30179A

1、负责强化学习算法的开发和应用,用于机器人的精细操作或者全身运动控制,提升动作的自然度和鲁棒性; 2、完成控制策略在真机上的测试验证,重点解决部署过程中遇到的sim2real gap问题; 3、持续跟踪国内外前沿研究成果,并进行相关算法复现。

更新于 2025-05-06北京
logo of xpeng
社招

1. 开展机器学习和强化学习领域的科学研究,推动技术进步; 2. 开发更优的数据驱动人类行为建模方法; 3. 与研究人员及跨职能团队合作,沟通研究计划、进展与成果; 4. 应用前沿强化学习技术,推动生成式人工智能(GenAI)和具身智能应用落地。 5. 参与学术论文发表及开源项目贡献。

更新于 2025-04-28深圳|上海
logo of kuaishou
社招3-5年D12518

团队介绍:我们是kwaipilot团队,负责快手自研KAT大语言模型的训练及开发。快手KAT系列模型编码能力在多个相关benchmark上的效果位居全球top3。主要工作方向包括: 1、通过算法创新与系统工程,刷新Agent的能力边界,效果达到世界领先水平; 2、专注于大语言模型(LLM)的前沿技术研究与技术落地,包括但不限于RL,Agent等方向; 3、负责大规模训练的算法-基建联合优化。

更新于 2025-10-21北京