
零一万物强化学习算法专家
社招全职算法地点:北京状态:招聘
任职要求
1、计算机、数学、物理、自动化、电子、通信等理工科专业硕士/博士,具有深厚的数学功底。 2、熟悉强化学习基础算法(Q-Learning、DQN、SARSA、PPO等),对 AlphaZero 框架有底层深入理解; 3、熟悉 GRPO/PPO 在…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、深入理解业务,设计并实现面向复杂约束场景下的超大规模、准实时决策优化问题的完整解决方案。 2、以强化学习(RL)为决策中枢,深度整合深度学习(DL)、运筹优化(OR)及蒙特卡洛树搜索(MCTS)等技术,提升长期奖励函数的可预测性、约束满足能力以及解空间搜索效率。 3、探索 LLM 及 Agents 在决策优化问题任务拆解与复杂推理中的应用。
包括英文材料
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
还有更多 •••
相关职位
社招
- 负责实现行走和操作功能. 包括上楼梯, 开门, 搬箱子, 打螺丝等功能 - 负责功能拆解和技术路线制定 - 负责跨部门沟通, 确保整机, 关机性能达标, 确保对自主导航, 语音等上游需求的交付
更新于 2024-07-29深圳|上海|北京
社招3-5年D13918
1、负责大模型的强化学习算法研究与开发,优化模型训练效果、稳定性和效率; 2、深入研究强化学习领域的前沿技术,结合公司业务场景,探索新的算法优化方向,保持公司在该领域的技术领先性; 3、探索强化学习阶段的多目标强化学习、奖励模型设计等技术方向,提升模型在复杂任务中的表现; 4、撰写技术报告和论文,分享研究成果,推动团队技术水平提升。
更新于 2025-07-28北京