logo of meituan

美团【大模型北斗实习】推理决策智能体技术研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉TensorFlowPyTorch深度学习框架、和主流编程语言、CUDA/Triton语言,具备扎实的深度学习理论基础。
2)有扎实的大模型实践和研究能力,尤其是在推理和决策优化领域具有深刻的理解。
3)发表过高水平论文(如NeurIPS, ICLR, ICML, ACL, EMNLP等)。
加分项:
1)有影响力的开源项目中做出过核心贡献,尤其是与大模型推理或多智能体协作相关的项目。
2)具备复杂推理、自主执行能力的大模型系统,在业务场景上设计和落地经验。

工作职责


本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。
核心研究内容包括:
1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。
2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。
3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。
4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。
5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。
包括英文材料
TensorFlow+
PyTorch+
深度学习+
CUDA+
大模型+
NeurIPS+
ICML+
相关职位

logo of meituan
实习核心本地商业-基

课题目标是在提升工具调用、规划、记忆等基本能力之外,探索高度拟人,具备环境感知,知识遵循,思考决策能力,同时能够以稳定的人设和对话风格进行人机交互,最终完成对话任务的复杂智能体或多智能体。研究内容: 1)研究智能体推理框架与各项基本能力的优化建模方法。通过多智能体架构与思维链设计,合成数据构造方法,大模型微调、强化等后训练方法的创新,实现智能体交互效果的提升。 2)研究智能体快速适应具体应用领域要求的建模方法。通过挖掘领域关键知识与决策相关信号,设计依靠领域专家的主动学习范式,构建与人工偏好和流程规则对齐的建模方案,打造低成本迁移的拟人智能体。 3)研究智能体情商和智商优化的自学习方法。结合应用需求设计奖励模型,通过强化学习等方法迭代智能体在意图理解和推测、情绪感知、主动服务、共情表达、语言风格等方面的表现,提升用户交互的满意度。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

随着大模型与生成式 AI 技术的快速发展,在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势,可在多种任务场景(如 Computer Use、网页浏览等)中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理,进一步提升 Agent 在真实应用中的表现。 主要研究内容包括但不限于: 1) 多模态与多步决策:设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境,研究如何利用端到端强化学习来进行多步决策,从而完成更具挑战的任务。 2) 策略学习与优化:在多种强化学习算法(如 PPO、GRPO 等)的框架下,探索高效的策略优化方法,为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理:借助大模型的知识与推理能力,设计可解释的多步规划算法;研究如何与外部工具或知识库交互,以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。

更新于 2025-05-23
logo of meituan
实习核心本地商业-美

随着 LLM 与 RL 技术的飞速发展,具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界(餐饮、购物、旅行规划等)复杂场景下自主运行的 Agent 系统,解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于: 1)自主规划与决策:研究基于 LLM 的 CoT 等的复杂推理机制,使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划,包括交通、住宿、餐饮和活动"等多步骤任务;开发能够在规划失败时进行自我修正和重新规划的自适应决策框架,突破传统 Agent 在复杂场景下的规划瓶颈。 2)强化学习驱动的自主优化:应用前沿强化学习算法(如PPO、GRPO、RL)优化 Agent 的决策系统,通过用户反馈和任务完成度构建复杂奖励函数;研究如何在高维状态空间和长期依赖问题中有效进行奖励分配,解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。 3)多 Agent 协作与分布式决策:设计基于角色分工的多 Agent 协作框架,使不同专长的 Agent 能够协同解决复杂任务,如"美食专家 Agent 负责菜品推荐,规划 Agent 负责整体行程安排"等;研究 Agent 间的通信协议和共识机制,解决分布式决策中的冲突协调和资源分配问题。

更新于 2025-05-23
logo of meituan
实习核心本地商业-业

【课题说明】 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。生成式推荐系统以大模型为核心,具备强大的内容理解、知识推理和个性化内容生成能力。通过将用户历史行为、上下文信息、多模态内容等深度融合,生成式推荐系统能够实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升用户体验和平台生态活力。 【建议研究方向】 1.生成式召回:研究基于大模型的生成式召回方法,实现以模型参数为载体的候选内容记忆与生成,突破传统召回技术的局限。 2.多轮交互推荐技术:探索多轮用户引导与深度交互机制,实时理解用户意图变化,满足“千人千面”的个性化需求。 3.推荐系统的可解释性与安全性:研究大模型驱动的推荐逻辑可解释性方法,提升用户对推荐决策的理解和信任。同时探索生成式推荐中的内容安全,保障推荐系统的合规性与用户体验。 4.推荐智能体与复杂任务规划:构建具备推理、规划和自主决策能力的推荐智能体,支持跨领域、跨步骤的复杂任务推荐。

更新于 2025-05-27