美团【大模型北斗实习】多模态大模型复杂推理
任职要求
1)在CV、NLP、多模态等相关领域有其中一个或多个方向有深入的研究经历。 2)熟悉TensorFlow、PyTorch等深度学习框架。 3)熟练使用Python、C++等至少一门编程语言,熟悉LINUX环境。 加分项: 1)有影响力的开源项目中做出过核心贡献。 2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,CVPR,ICCV,ECCV等)。
工作职责
多模态推理是大模型迈向通用人工智能的关键能力,涉及跨视觉、语言等多种模态的信息整合与深度理解。本课题聚焦于探究多模态生成式大模型的复杂推理发生机制,研究模型如何协同处理、融合和推理来自不同感知通道的信息,从而提升在复杂任务中的认知表现。 研究内容: 1)多模态复杂任务推理机制探究:探索强化学习机制,激发推理思维链策略,分析不同模态间信息融合在复杂跨模态推理中的作用,研究视觉-语言长距离依赖关系建模方法。 2)多模态复杂推理与通用任务有效统一范式研究: 分析通用多模态通用任务与复杂推理任务的区别与联系,探索使用单一模型有效统一两者的范式,实现模型自适应地根据不同问题来进行不同长度的思考回答。
Reasoning(推理)是大模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。课题聚焦于探究生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。 研究内容包括但不限于: 1)复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。 2) RL scaling,通过大规模强化学习持续提升模型推理能力。 3)Test time scaling,通过增加inference时消费的算力持续提升模型推理能力。
随着大模型与生成式 AI 技术的快速发展,在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势,可在多种任务场景(如 Computer Use、网页浏览等)中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理,进一步提升 Agent 在真实应用中的表现。 主要研究内容包括但不限于: 1) 多模态与多步决策:设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境,研究如何利用端到端强化学习来进行多步决策,从而完成更具挑战的任务。 2) 策略学习与优化:在多种强化学习算法(如 PPO、GRPO 等)的框架下,探索高效的策略优化方法,为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理:借助大模型的知识与推理能力,设计可解释的多步规划算法;研究如何与外部工具或知识库交互,以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。
【课题说明】 外卖业务在国际市场上展现出前所未有的增长潜力,全球化运营对智能化提出更高要求。本课题致力于运用大模型技术,结合后训练、多模态、强化学习等手段,打造覆盖智能客服、智能审核、智能外呼的下一代全球服务系统,核心在于高效完成跨文化背景下的复杂任务。 【建议研究方向】 1.任务型对话的强化学习与后训练:研究如何结合强化学习激励与高效后训练方法,使大模型能精准理解并高效完成全球用户、商家及骑手提出的多模态复杂服务任务。 2.少样本多模态理解与推理:探索在数据相对稀疏的海外市场中,如何构建强大的多模态大模型,以支持对用户、骑手、商家上传图文的高效合规审核与风险识别。 3.外呼场景下的可控对话:研究通过可控生成技术并有效融入领域知识,提升大模型在招聘、商家/骑手沟通等多语言智能外呼任务中对话的自然度、信息准确性与目标达成率。
【课题说明】 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。生成式推荐系统以大模型为核心,具备强大的内容理解、知识推理和个性化内容生成能力。通过将用户历史行为、上下文信息、多模态内容等深度融合,生成式推荐系统能够实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升用户体验和平台生态活力。 【建议研究方向】 1.生成式召回:研究基于大模型的生成式召回方法,实现以模型参数为载体的候选内容记忆与生成,突破传统召回技术的局限。 2.多轮交互推荐技术:探索多轮用户引导与深度交互机制,实时理解用户意图变化,满足“千人千面”的个性化需求。 3.推荐系统的可解释性与安全性:研究大模型驱动的推荐逻辑可解释性方法,提升用户对推荐决策的理解和信任。同时探索生成式推荐中的内容安全,保障推荐系统的合规性与用户体验。 4.推荐智能体与复杂任务规划:构建具备推理、规划和自主决策能力的推荐智能体,支持跨领域、跨步骤的复杂任务推荐。