logo of meituan

美团【大模型北斗实习】图像生成大模型技术研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)熟悉扩散模型最新研究进展。
2)熟悉PyTorch,能快速开展实验。
加分项:
1)有图像/视频生成大模型研究经验,或者在相关开源项目中做出过核心贡献。
2…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


在AIGC大模型的RLHF阶段,奖励模型(Reward Models)通过提供精准的奖励反馈来调整模型优化方向,以提升图像生成的质感与美感,从而增强整体视觉呈现效果。同时,随着模型参数规模的不断增加,亟需从模型架构层面探讨更优的生成策略。课题研究内容包括但不限于:
1)多维度图像奖励模型的设计。
2)DiT框架的优化,探索性能与推理效率的极限。
3)图像生成范式的探索,系统性验证AR或AR+Diffusion方案的优缺点,以迈向更大规模的生成模型。
包括英文材料
PyTorch+
大模型+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

研究方向包括但不限于: 1).高效率、低精度损失、高压缩比的视频VAE和tokenizer。 2)围绕DiT结构的高效训练和推理探索,包括稀疏架构、MoE、AR生成等。 3) 视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

在内容生成领域,音频生成逐渐成为热门研究方向,具有广阔的应用前景和研究价值。本课题专注于音频内容生成方向,包括但不限于: 1)音视频联合生成:探索如何使模型在生成过程中有效地结合文本、语音和图像信息,提升生成结果的相关性和自然度。 2)音频数据处理与融合:研究音频数据的预处理和特征提取技术,以优化生成模型的输入输出。 3)多模态生成模型的性能评估:设计自动化评估方法,量化多模态生成模型在下游任务中的表现。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

大语言模型(LLM)最近取得的突破极大地加速了多模态大语言模型(MLLM)的发展。全模态多模态大语言模型(Omni-MLLM)通过融入如视频、音频等额外的非语言模态,拓展了多模态大语言模型的能力,从而有助于更全面、多维度地理解各种模态,提供更强的智能以及更智能的交互模式。研究方向包括不限于: 1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征;探索基于对比学习、自监督学习的方法,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化。 3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力。使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出。 4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验。

更新于 2025-05-23北京|上海
logo of meituan
实习核心本地商业-基

本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。 核心研究内容包括: 1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。 2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。 3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。 4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。 5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。

更新于 2025-05-23北京|上海