美团【大模型北斗实习】基于原生语音大模型的情感陪伴智能体
任职要求
1)熟悉LLM、Speech Codec、NLP Dialog、语音(ASR / TTS)、情感分析等相关领域,对至少一个方向有深入研究,并有实际项目经验,能够将理论知识应用于实践。 2)熟练掌握 Python 等编程语言,具备良好的编程习惯与代码能力,熟悉 Linux 开发环境。 3)熟悉 Megatron、DeepSpeed 等开源训练框架。 加分项: 1)曾在SpeechLM、Speech Codec、NLP Dialog等相关的开源项目中做出突出贡献。 2)曾在上述领域中发表过高水平论文者优先考虑。
工作职责
该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容: 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。
原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括: 1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。 2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
大模型的语言理解与生成能力标志着基于人类语言的人机交互接口接近成熟。通过agent框架拓展系统环境适应力,结合推理技术突破(如o1/R1)强化中枢决策能力,内外协同将加速实现长周期人机协作,提升生产力。本课题希望逐步实现长周期人机协作所需的大模型agent能力,并解决其中涉及的模型训练和评估问题。研究内容包括但不限于: 1)长周期人机协作所涉及的模型能力拆解。 2)针对长周期协作所涉及的具体能力构建agent框架。 3)基于能力拆解建设相关的评测评估方案。 4)通过模型微调等手段优化相应的模型能力。
随着AI技术的突破,代码大模型正成为软件开发领域的核心驱动力。基于LLM的代码生成工具已实现从自然语言描述到高质量代码的自动化生成,带来开发效率的大幅提升。本课题旨在打造行业领先的代码大模型,并推动Coding Agent在实际应用场景落地。 研究内容: 1)通过代码pretrain、continue train、SFT、RL等手段,提升大模型的代码能力。 2)构建高质量代码语料库,涵盖多语言、多场景的工业级代码数据。 3)研发Coding Agent,支持代码生成、编辑、单测生成等领域的落地应用。