logo of 01ai

零一万物强化学习算法专家

社招全职算法地点:北京状态:招聘

任职要求


1、计算机、数学、物理、自动化、电子、通信等理工科专业硕士/博士,具有深厚的数学功底。
2、熟悉强化学习基础算法(Q-Learning、DQN、SARSA、PPO等),对 AlphaZero 框架有底层深入理解;
3、熟悉 GRPO/PPO 在…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、深入理解业务,设计并实现面向复杂约束场景下的超大规模、准实时决策优化问题的完整解决方案。
2、以强化学习(RL)为决策中枢,深度整合深度学习(DL)、运筹优化(OR)及蒙特卡洛树搜索(MCTS)等技术,提升长期奖励函数的可预测性、约束满足能力以及解空间搜索效率。
3、探索 LLM 及 Agents 在决策优化问题任务拆解与复杂推理中的应用。
包括英文材料
强化学习+
算法+
还有更多 •••
相关职位

logo of xpeng
社招

- 负责实现行走和操作功能. 包括上楼梯, 开门, 搬箱子, 打螺丝等功能 - 负责功能拆解和技术路线制定 - 负责跨部门沟通, 确保整机, 关机性能达标, 确保对自主导航, 语音等上游需求的交付

更新于 2024-07-29深圳|上海|北京
logo of amap
社招3年以上技术类-算法

参与空间智能项目,通过深度强化学习技术,建设下一代导航技术。

更新于 2025-05-25北京
logo of kuaishou
社招3-5年D13918

1、负责大模型的强化学习算法研究与开发,优化模型训练效果、稳定性和效率; 2、深入研究强化学习领域的前沿技术,结合公司业务场景,探索新的算法优化方向,保持公司在该领域的技术领先性; 3、探索强化学习阶段的多目标强化学习、奖励模型设计等技术方向,提升模型在复杂任务中的表现; 4、撰写技术报告和论文,分享研究成果,推动团队技术水平提升。

更新于 2025-07-28北京
logo of kuaishou
社招3-5年D13914

1、负责视频生成大模型以及多模态控制的视频生成的强化学习算法研究与开发,优化模型训练效果、稳定性和效率; 2、深入研究前沿的强化学习算法,结合可灵视频生成业务场景,探索和落地新的算法优化方向,保持公司在该领域的技术领先性; 3、深入研究面向视频生成的多目标强化学习及奖励模型(Reward Model)设计,提升模型在复杂任务中的表现; 4、撰写高质量技术报告与论文,与团队共同推动技术创新,保持行业领先地位。

更新于 2025-12-02北京