logo of meituan

美团【大模型北斗实习】音频内容生成算法研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉常见的多模态大模型架构。
2)熟悉PythonC++等至少一门编程语言,熟悉LINUX环境。
3)熟悉 MegatronDeepSpeed 等开源训练框架。
加分项:
1)高星开源项目,社区关注度高。
2)发表过高水平论文,如 ICLRNeurIPSICMLCVPR 等。

工作职责


在内容生成领域,音频生成逐渐成为热门研究方向,具有广阔的应用前景和研究价值。本课题专注于音频内容生成方向,包括但不限于:
1)音视频联合生成:探索如何使模型在生成过程中有效地结合文本、语音和图像信息,提升生成结果的相关性和自然度。
2)音频数据处理与融合:研究音频数据的预处理和特征提取技术,以优化生成模型的输入输出。
3)多模态生成模型的性能评估:设计自动化评估方法,量化多模态生成模型在下游任务中的表现。
包括英文材料
大模型+
Python+
C+++
Megatron+
DeepSpeed+
NeurIPS+
ICML+
CVPR+
相关职位

logo of meituan
实习核心本地商业-基

大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于: 1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。 3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。 4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。 核心研究内容包括: 1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。 2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。 3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。 4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。 5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于: 1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。 2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。

更新于 2025-05-23