美团大模型强化学习算法高级工程师
社招全职5年以上核心本地商业-美团平台地点:北京状态:招聘
任职要求
必要条件 学历与专业背景 硕士及以上学历,计算机科学、人工智能、机器学习或相关专业 具有 5 年以上强化学习方向的研究或工程经验 RL 深厚积累 扎实的 RL 理论基础,熟悉分层强化学习(Hierarchical RL)、多智能体 RL、逆强化学习等高级方向 具备在复杂环境中设计和优化 RL 算法的实践经验 了解 RL 的 Scaling Law,具备对大规模 RL 系统的性能分析能力 LLM 与 Agent 系统经验 深刻理解 LLM 的能力与局限,能够设计 LLM + RL 融合方案 关键要求:有构建或参与 Agentic RL 系统的实际经验,如: 开发过基于 LLM 的 Agent 决策框架 研究过 LLM 与 RL 的联合优化问题…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
技术研发与创新 主导 Agentic RL 系统的架构设计和前沿算法研发 将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值 针对本地生活场景,设计突破性的奖励函数和学习机制 建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线 项目驱动与落地 推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率 与产品、工程团队深度合作,将研究成果转化为实际业务收益 团队领导与人才培养 组建和领导一支在 RL 和 Agent 领域的高水平研究团队 制定团队的技术战略和发展规划 指导团队成员的学术输出和技术成长 培养团队的工程实践能力,建立高效的算法开发和迭代流程
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
智能体+
https://learn.microsoft.com/en-us/shows/ai-agents-for-beginners/
In this 10-lesson course we take you from concept to code while covering the fundamentals of building AI agents.
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
校招研发类
1、研究大语言模型及多模态大模型的SFT和RLHF后训练方法,旨在提升大模型在相关端侧业务上的基础能力,紧跟业界大模型的技术发展; 2、探索大模型的agent应用能力,包括但不限于ReAct、Reflexion、AutoGPT、MetaGPT等LLMagent应用框架,以及强化学习智能体的规划和端到端训练方法; 3、研究用户个性化大模型的强化学习训练和应用能力,提升端侧用户体验; 4、撰写技术报告和论文,积极参与公司内外部的技术交流与合作,推动团队在大模型技术水平和业务落地能力上的提升,增强团队在行业内的影响力和知名度。
更新于 2025-08-07上海
社招3年以上技术类-算法
高德研发效能团队聚焦研发智能化方向,利用大模型技术革新研发交付模式,支撑业务高速发展。主要包括大模型技术在 项目管理、需求理解、代码开发和测试、智能回归、业务评测等研发效能领域的落地,以及大模型强化学习方向的前沿技术探索。
更新于 2025-10-22北京
社招研发类
1、负责机械臂和灵巧手的模仿学习+强化学习相关算法的开发与落地,如物品抓取、铰链物体操作、可变形物体操作、掌内操作等; 2、跟踪国内外具身操作的最新进展,能够快速理解新工作并能够提出创新性观点,完成实验验证; 3、和大模型相结合,利用语言交互以及视觉,触觉等多模态信息实现在不同应用场景下的功能泛化和长序列动作;
更新于 2025-10-20北京|上海|深圳