logo of meituan

美团【大模型北斗实习】多模态大模型架构算法研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


1)在CV、NLP、多模态等相关领域有其中一个或多个方向有深入的研究经历。
2)熟悉TensorFlowPyTorch深度学习框架。
3)熟练使用PythonC++等至少一门编程语言,熟悉LINUX环境。
加分项:
1)有影响力的开源项目中做出过核心贡献。
2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,CVPR,ICCV,ECCV等)。

工作职责


多模态理解与生成能力是大模型实现通用人工智能的核心基石之一,涵盖了跨视觉、语言等多种模态的信息处理与创造。本课题致力于探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成,从而构建具备更强泛化能力和创造性的通用人工智能大模型。
研究内容:
1)视觉表征研究:不同规模和训练范式的视觉基座预训练,模型结构探索和选型,开发更适合于多模态大模型的视觉基座。
2)理解生成统一:面向不同的多模态架构和训练范式,从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别,探索更具通用性的多模态特征。
3)视频多模态能力提升:探索短视频、长视频、视频流等不同形态的视频多模态方案,探究图像、视频统一的多模态解决方案。
4)高效和轻量化模型构建:探索适合轻量化多模态任务的模型架构,通过参数共享、模块化设计等手段,在不显著降低性能的前提下减少模型参数量和计算复杂度。
包括英文材料
NLP+
TensorFlow+
PyTorch+
深度学习+
Python+
C+++
NeurIPS+
ICML+
CVPR+
ICCV+
ECCV+
相关职位

logo of meituan
实习核心本地商业-基

大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于: 1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。 3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。 4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

在内容生成领域,音频生成逐渐成为热门研究方向,具有广阔的应用前景和研究价值。本课题专注于音频内容生成方向,包括但不限于: 1)音视频联合生成:探索如何使模型在生成过程中有效地结合文本、语音和图像信息,提升生成结果的相关性和自然度。 2)音频数据处理与融合:研究音频数据的预处理和特征提取技术,以优化生成模型的输入输出。 3)多模态生成模型的性能评估:设计自动化评估方法,量化多模态生成模型在下游任务中的表现。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

本课题研究方向包括但不限于: 1)构建端到端的网页文本内容提取系统,针对网络数据的复杂性,从系统效率和模型效果角度持续优化内容提取算法,迭代生产标准。 2)设计预训练数据的全局质量优化和治理方案,优化全局采样策略、隐私保护和安全合规,提升基座模型训练效率和最终效果。 3)建设多模态交错数据处理链路,通过数据分析和配比实验等手段优化多模态数据质量和多样性,支撑多模态大模型数据需求。 4)推动数据驱动的模型性能突破。 5)负责千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

原生多模旨在统一理解与生成,从而用同一套范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。本课题研究内容包括: 1)Pre-train:借助更好的tokenizer架构 / 数据表达 / loss设计,发挥原生多模态能够不依赖文本标注,直接学习无监督多模数据的优势,进一步提升模型能力。例如基于大规模的视频/语音数据自监督训练,对物理世界建模。 2)Post-train:通过SFT / RL等手段,借助多模token推理解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。

更新于 2025-05-23