logo of meituan

美团【大模型北斗实习】虚拟人交互前沿路线研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉多模态大模型、2D虚拟人、视频生成等相关研究进展。
2)熟悉PyTorch,有充分的动手实践经验。
加分项:
1)社区影响力:有多模态大模型、视频生成、虚拟人相关研究和实习经历,有影响力的开源项目中做出过核心贡献。
2)学术影响力:发表过高水平论文(如ICLRCVPRICCV等),有相关竞赛经历并取得名次。

工作职责


随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于:
1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。
2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。
包括英文材料
大模型+
PyTorch+
CVPR+
ICCV+
相关职位

logo of meituan
实习核心本地商业-基

本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。 核心研究内容包括: 1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。 2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。 3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。 4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。 5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

在内容生成领域,音频生成逐渐成为热门研究方向,具有广阔的应用前景和研究价值。本课题专注于音频内容生成方向,包括但不限于: 1)音视频联合生成:探索如何使模型在生成过程中有效地结合文本、语音和图像信息,提升生成结果的相关性和自然度。 2)音频数据处理与融合:研究音频数据的预处理和特征提取技术,以优化生成模型的输入输出。 3)多模态生成模型的性能评估:设计自动化评估方法,量化多模态生成模型在下游任务中的表现。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

在AIGC大模型的RLHF阶段,奖励模型(Reward Models)通过提供精准的奖励反馈来调整模型优化方向,以提升图像生成的质感与美感,从而增强整体视觉呈现效果。同时,随着模型参数规模的不断增加,亟需从模型架构层面探讨更优的生成策略。课题研究内容包括但不限于: 1)多维度图像奖励模型的设计。 2)DiT框架的优化,探索性能与推理效率的极限。 3)图像生成范式的探索,系统性验证AR或AR+Diffusion方案的优缺点,以迈向更大规模的生成模型。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。​研究内容:​ 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。​ 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。​ 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。​ 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。​

更新于 2025-05-23