美团【大模型北斗实习】语音基座大模型前沿探索
任职要求
1)对语音、NLP、CV等相关领域一个或多个方向有深入的研究经历,且有相关实际项目经验。 2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron、DeepSpeed 等开源训练框架。 加分项: 1)在知名开源项目中有核心贡献者优先。 2)对大模型有深入研究且有实际训练经验者优先。 3)发表过高水平论文。
工作职责
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于: 1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。 2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。
【课题说明】 传统销售模式中,销售人员通过电销系统触达商户,对商户进行营销/运营触达,整体链路人工依赖率高。随着大模型技术的快速发展,基于大模型的智能外呼在提升电销覆盖率和转化率方面展现出极大潜力。 本课题致力于将大模型技术和智能外呼任务相结合,优化美团智能外呼系统,增强其在复杂对话环境下的意图理解与灵活应对能力。力图实现更自然的语音交互、更精准的营销策略,以及更灵活的应答处理等。 【建议研究方向】 1.转化信号奖励建模:依托业务场景多轮对话的真实转化信号,构建商家画像、对话文本特征信号以及交互环境特征,预估对话的转化率,进而通过强化学习(DPO/GRPO/RLHF)引导模型营销话术生成。 2.销售领域垂类大模型:通过收集多场景销售数据以及美团广告产品知识,通过continue-Pretraining构建垂类通用销售模型基座,支持多业务场景快速支持应用。 3.Multi-Agent交互式外呼系统:通过构建任务规划、流程监督、对话营销等多个agent交互逻辑,在较低响应耗时条件下,实现最佳的电话沟通效果。
该课题聚焦于利用语音多模态大模型以及深度推理大模型构建对话Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的对话Agent。研究内容: 1)参与语音多模态大模型在客服、销售、C端助理等场景应用技术研究,通过文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,通过加入业务知识,增强对业务场景知识遵循能力。 2)结合客服、销售、C端助理等业务问题,研究大模型反思、规划、决策等深度推理能力,提升模型回复的拟人度及回复准确性。
该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容: 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。