logo of meituan

美团【大模型北斗实习】基于原生语音大模型的情感陪伴智能体

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉LLM、Speech Codec、NLP Dialog、语音(ASR / TTS)、情感分析等相关领域,对至少一个方向有深入研究,并有实际项目经验,能够将理论知识应用于实践。​
2)熟练掌握 Python 等编程语言,具备良好的编程习惯与代码能力,熟悉…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。​研究内容:​
1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。​
2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。​
3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。​
4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。​
包括英文材料
大模型+
NLP+
Python+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括: 1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。 2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2025-05-23北京|香港|上海
logo of meituan
实习核心本地商业-基

简介:围绕下一代智能体系统的三类核心能力展开布局——持续学习能力、原生规划与建模能力、跨时程记忆能力。 1、探索 Agent 的学习范式:online learning/自博弈/自进化:围绕任务自动生成—轨迹采集—反馈建模—经验提炼—策略更新的闭环展开探索,重点尝试失败驱动的课程生成、自我反思与回溯、多智能体自博弈、基于验证器或多数投票的弱监督反馈,以及将经验写入外部记忆或压缩回模型参数的近在线更新机制。核心目标是让 Agent 在开放环境中逐步具备持续学习、持续适应和持续提升的能力。 2、Agentic-native model 范式:扩散模型/世界模型/生成式规划:探索三类互补路径:其一,学习可供 Agent 调用的世界模型,用于预测状态转移、环境反馈与长期结果;其二,用扩散式或潜变量式生成机制,对动作序列、子目标或未来轨迹进行并行采样与迭代修正,提升长程规划能力;其三,把生成式规划与搜索/验证结合,通过 imagined rollouts、候选轨迹打分、反事实比较和分层计划,把先想后做的能力落实到系统。 3、超长上下文与记忆:围绕记什么、记成什么形式、何时写、如何压缩、何时召回、何时遗忘这几个核心问题开展研究,重点探索分层记忆结构、事实/经验/工作记忆协同、主动写入与更新、基于任务反馈的记忆读写策略学习,以及长上下文与显式记忆协同的系统设计,以支撑长时程规划、多轮任务连续性与个体化经验积累.

更新于 2026-04-03北京|上海
logo of meituan
实习核心本地商业-基

简介:下一代智能体系统的构建作为 2026 年进一步实现 AGI 的发展重点,claw 的火爆也揭示了这里的丰富潜力。我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决的能力。对于启发下一代智能体系统构建的任务,我们主要拆解如下特点: 1、长程性 :模型需要具备可靠地进行长周期任务执行的能力,让人不需要频繁 check,i.e.,模型可以自主稳定、目标导向地无人类监管运行 x 小时,且运行时间和任务完成度 / 任务完成量正相关。 2、系统性:模型需要能够原生地对高抽象层级的任务进行执行和拆解,不然模型只是终端工具,依然依赖大量的 human work 制订 workflow / pipeline,i.e.,模型可以通过单次运行解决人类需要工作 y 小时的任务。 3、探索性 & 成长性:可以预期模型具备在合适的时机自发进行有意义的探索,并以恰当的可掌握、高信息密度的形态进行增量信息的提取、构建与维护的能力,并充分利用这样的反复、多次的自监督探索所带来的自进化 / 自迭代 / 持续学习潜力。 4、多样性 & 鲁棒性:模型需要可以在复杂、多样、跨模态的任务域内做功,在高度分化的真实、可能带噪声的全模态环境下处理高度分化的任务。 具体的,我们关注如下研究目标: 1、通过 Large Scale RL Scaling 等手段,训练智能体系统能够在多样化、有噪声的真实、全模态环境下,支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用,并能在一定限度内进行环境的修复与可靠改造。 2、探索在易于模型理解使用的前提下,训练智能体系统以更高信息密度的形态构建、维护和利用 memory,使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验,并进行有效复用,达到不断自进化 / 自迭代 / 持续学习的效果。 3、训练智能体系统的系统性长程任务高效处理能力,可以自主进行合理的任务拆解、分工;探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。 4、探索多模态推理和多模态环境交互的范式,并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。

更新于 2026-04-07北京|上海
logo of meituan
实习核心本地商业-基

大模型的语言理解与生成能力标志着基于人类语言的人机交互接口接近成熟。通过agent框架拓展系统环境适应力,结合推理技术突破(如o1/R1)强化中枢决策能力,内外协同将加速实现长周期人机协作,提升生产力。本课题希望逐步实现长周期人机协作所需的大模型agent能力,并解决其中涉及的模型训练和评估问题。研究内容包括但不限于: 1)长周期人机协作所涉及的模型能力拆解。 2)针对长周期协作所涉及的具体能力构建agent框架。 3)基于能力拆解建设相关的评测评估方案。 4)通过模型微调等手段优化相应的模型能力。

更新于 2025-05-23北京|上海