美团【大模型北斗实习】语音基座大模型前沿探索
任职要求
1)对语音、NLP、CV等相关领域一个或多个方向有深入的研究经历,且有相关实际项目经验。 2)熟练使用深度学习框架(比如PyTorch),熟悉 Megatron…
工作职责
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于: 1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。 2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。
简介:原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。 研究课题包括但不限于: 1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。 2、原生全模态预训练的training dynamic探究,模态之间的关系建模。 3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
【课题说明】 传统销售模式中,销售人员通过电销系统触达商户,对商户进行营销/运营触达,整体链路人工依赖率高。随着大模型技术的快速发展,基于大模型的智能外呼在提升电销覆盖率和转化率方面展现出极大潜力。 本课题致力于将大模型技术和智能外呼任务相结合,优化美团智能外呼系统,增强其在复杂对话环境下的意图理解与灵活应对能力。力图实现更自然的语音交互、更精准的营销策略,以及更灵活的应答处理等。 【建议研究方向】 1.转化信号奖励建模:依托业务场景多轮对话的真实转化信号,构建商家画像、对话文本特征信号以及交互环境特征,预估对话的转化率,进而通过强化学习(DPO/GRPO/RLHF)引导模型营销话术生成。 2.销售领域垂类大模型:通过收集多场景销售数据以及美团广告产品知识,通过continue-Pretraining构建垂类通用销售模型基座,支持多业务场景快速支持应用。 3.Multi-Agent交互式外呼系统:通过构建任务规划、流程监督、对话营销等多个agent交互逻辑,在较低响应耗时条件下,实现最佳的电话沟通效果。