logo of meituan

美团【大模型北斗实习】图像生成大模型技术研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉扩散模型最新研究进展。
2)熟悉PyTorch,能快速开展实验。
加分项:
1)有图像/视频生成大模型研究经验,或者在相关开源项目中做出过核心贡献。
2)对AIGC的训练与推理优化有实践经验。
3)在计算机视觉、多媒体、人工智能的权威期刊或会议上发表过视觉生成相关的论文专著,或者在重要算法比赛中取得过优秀名次。

工作职责


在AIGC大模型的RLHF阶段,奖励模型(Reward Models)通过提供精准的奖励反馈来调整模型优化方向,以提升图像生成的质感与美感,从而增强整体视觉呈现效果。同时,随着模型参数规模的不断增加,亟需从模型架构层面探讨更优的生成策略。课题研究内容包括但不限于:
1)多维度图像奖励模型的设计。
2)DiT框架的优化,探索性能与推理效率的极限。
3)图像生成范式的探索,系统性验证AR或AR+Diffusion方案的优缺点,以迈向更大规模的生成模型。
包括英文材料
PyTorch+
大模型+
OpenCV+
算法+
相关职位

logo of meituan
实习核心本地商业-基

研究方向包括但不限于: 1).高效率、低精度损失、高压缩比的视频VAE和tokenizer。 2)围绕DiT结构的高效训练和推理探索,包括稀疏架构、MoE、AR生成等。 3) 视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

在内容生成领域,音频生成逐渐成为热门研究方向,具有广阔的应用前景和研究价值。本课题专注于音频内容生成方向,包括但不限于: 1)音视频联合生成:探索如何使模型在生成过程中有效地结合文本、语音和图像信息,提升生成结果的相关性和自然度。 2)音频数据处理与融合:研究音频数据的预处理和特征提取技术,以优化生成模型的输入输出。 3)多模态生成模型的性能评估:设计自动化评估方法,量化多模态生成模型在下游任务中的表现。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于: 1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。 3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。 4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

多模态理解与生成能力是大模型实现通用人工智能的核心基石之一,涵盖了跨视觉、语言等多种模态的信息处理与创造。本课题致力于探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成,从而构建具备更强泛化能力和创造性的通用人工智能大模型。 研究内容: 1)视觉表征研究:不同规模和训练范式的视觉基座预训练,模型结构探索和选型,开发更适合于多模态大模型的视觉基座。 2)理解生成统一:面向不同的多模态架构和训练范式,从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别,探索更具通用性的多模态特征。 3)视频多模态能力提升:探索短视频、长视频、视频流等不同形态的视频多模态方案,探究图像、视频统一的多模态解决方案。 4)高效和轻量化模型构建:探索适合轻量化多模态任务的模型架构,通过参数共享、模块化设计等手段,在不显著降低性能的前提下减少模型参数量和计算复杂度。

更新于 2025-05-23