logo of meituan

美团【大模型北斗实习】基于多模序列建模提升原生多模态大模型智能水平

实习兼职核心本地商业-基础研发平台地点:北京 | 香港 | 上海状态:招聘

任职要求


1)熟悉NLPLLM、MLLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟悉PythonC++等至少一门编程语言,熟悉LINUX环境。
3)熟悉 MegatronDeepSpeed 等开源训练框架。
加分项:
1)有影响力的开源项目中做出过核心贡献。
2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。

工作职责


原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括:
1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。
2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
包括英文材料
NLP+
大模型+
Python+
C+++
Megatron+
DeepSpeed+
NeurIPS+
ICML+
相关职位

logo of meituan
实习核心本地商业-基

大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于: 1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。 3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。 4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于: 1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。 2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。​研究内容:​ 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。​ 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。​ 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。​ 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。​

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

大模型的语言理解与生成能力标志着基于人类语言的人机交互接口接近成熟。通过agent框架拓展系统环境适应力,结合推理技术突破(如o1/R1)强化中枢决策能力,内外协同将加速实现长周期人机协作,提升生产力。本课题希望逐步实现长周期人机协作所需的大模型agent能力,并解决其中涉及的模型训练和评估问题。研究内容包括但不限于: 1)长周期人机协作所涉及的模型能力拆解。 2)针对长周期协作所涉及的具体能力构建agent框架。 3)基于能力拆解建设相关的评测评估方案。 4)通过模型微调等手段优化相应的模型能力。

更新于 2025-05-23