logo of meituan

美团大模型强化学习算法高级工程师

社招全职5年以上核心本地商业-美团平台地点:北京状态:招聘

任职要求


必要条件

学历与专业背景

硕士及以上学历,计算机科学、人工智能、机器学习或相关专业

具有 5 年以上强化学习方向的研究或工程经验


RL 深厚积累

扎实的 RL 理论基础,熟悉分层强化学习(Hierarchical RL)、多智能体 RL、逆强化学习等高级方向

具备在复杂环境中设计和优化 RL 算法的实践经验

了解 RL 的 Scaling Law,具备对大规模 RL 系统的性能分析能力


LLMAgent 系统经验

深刻理解 LLM 的能力与局限,能够设计 LLM + RL 融合方案

关键要求:有构建或参与 Agentic RL 系统的实际经验,如:

开发过基于 LLMAgent 决策框架

研究过 LLM 与 RL 的联合优化问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


技术研发与创新

主导 Agentic RL 系统的架构设计和前沿算法研发

将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值

针对本地生活场景,设计突破性的奖励函数和学习机制

建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线


项目驱动与落地

推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率

与产品、工程团队深度合作,将研究成果转化为实际业务收益


团队领导与人才培养

组建和领导一支在 RL 和 Agent 领域的高水平研究团队

制定团队的技术战略和发展规划

指导团队成员的学术输出和技术成长

培养团队的工程实践能力,建立高效的算法开发和迭代流程
包括英文材料
学历+
机器学习+
强化学习+
智能体+
算法+
大模型+
AI agent+
Python+
还有更多 •••
相关职位

logo of honor
校招研发类

1、研究大语言模型及多模态大模型的SFT和RLHF后训练方法,旨在提升大模型在相关端侧业务上的基础能力,紧跟业界大模型的技术发展; 2、探索大模型的agent应用能力,包括但不限于ReAct、Reflexion、AutoGPT、MetaGPT等LLMagent应用框架,以及强化学习智能体的规划和端到端训练方法; 3、研究用户个性化大模型的强化学习训练和应用能力,提升端侧用户体验; 4、撰写技术报告和论文,积极参与公司内外部的技术交流与合作,推动团队在大模型技术水平和业务落地能力上的提升,增强团队在行业内的影响力和知名度。

更新于 2025-08-07上海
logo of amap
社招3年以上技术类-算法

高德研发效能团队聚焦研发智能化方向,利用大模型技术革新研发交付模式,支撑业务高速发展。主要包括大模型技术在 项目管理、需求理解、代码开发和测试、智能回归、业务评测等研发效能领域的落地,以及大模型强化学习方向的前沿技术探索。

更新于 2025-10-22北京
logo of honor
社招研发类

1、负责机械臂和灵巧手的模仿学习+强化学习相关算法的开发与落地,如物品抓取、铰链物体操作、可变形物体操作、掌内操作等; 2、跟踪国内外具身操作的最新进展,能够快速理解新工作并能够提出创新性观点,完成实验验证; 3、和大模型相结合,利用语言交互以及视觉,触觉等多模态信息实现在不同应用场景下的功能泛化和长序列动作;

更新于 2025-10-20北京|上海|深圳
logo of liauto
社招自动驾驶

1.负责研发和实现理想汽车自动驾驶系统中的强化学习算法,针对端到端大模型的训练范式进行优化,确保算法在车端平台的高效部署。 2.专注于开发和实现创新的强化学习算法和架构,推动自动驾驶系统性能的提升,特别是在 MPI 性能方面的突破。 3.参与自动驾驶系统的分布式训练框架建设,优化计算资源和内存瓶颈,支持大规模模型的高效训练与推理。 4.跟踪强化学习和自动驾驶领域的最新技术进展,推动新技术的实验验证和应用落地,推动技术前沿的突破。 5.跨团队紧密合作,确保 AI 模型在生产环境中部署,满足高性能和高可靠性的要求。

北京