logo of meituan

美团【北斗】多模态基座大模型算法研究员(视觉/语音/全模态融合)

校招全职核心本地商业-基础研发平台地点:北京 | 上海 | 深圳状态:招聘

任职要求


视觉方向
1.熟悉多模态视觉大模型相关算法(LLaVa、Chameleon、Qwen-VL、OpenCLIP等),具备相关的项目经验;
2.对前沿技术有强烈的探索欲,具备优秀的分析和解决问题的能力,有出色的团队协作精神;
3.发表过领域顶级会议文章(CVPRICCVECCVNeurIPSICMLICLR、ACL等)、ACM竞赛获奖者优先。
语音方向
1.熟练掌握Pytorch深度学习框架,Python编程语言;
2.熟悉大模型相关算法,具备相关的项目经验;
3.对前沿技术有强烈的探索欲,有出色的团队协作精神;
4.发表过领域顶级会议文章(NeurIPSICMLICLR、ACL、Interspeech、ICASSP等)、ACM竞赛获奖者优先。

岗位亮点:
1.视觉方向构建新一代视觉大模型架构,深度参与视觉大模型能力建设,建设行业领先的模型架构、训练策略、视觉表征技术。探索前沿技术方向,包括理解生成统一模型、多模态Agent、具身智能等,与行业同步探索技术未知之境。
2.语音方向构建新一代语音大模型架构,深度参与语音大模型能力建设,建设行业领先的模型架构、训练策略、语音表征技术。探索前沿技术方向,包括语音交互大模型、语音强化学习策略等,与行业同步探索技术未知之境。
3.全模态融合方向聚焦多模态智能系统的底层架构创新,重点突破文本、视觉与语音的深度融合机制,构建支持跨模态推理的新型交互范式,持续提升智能系统在复杂场景下的问题解析与决策能力。
4.拥有丰富的算力资源和数据支持,快速验证并迭代高价值技术方案。
5.支持技术开源、发表顶会论文、申请核心技术专利。

工作职责


视觉方向
1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。
2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。
3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。
4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。
5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。
6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。

语音方向
1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。
2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。
3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。
4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。
5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。
6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。

全模态融合
大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。
1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。
2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出
3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。
包括英文材料
大模型+
算法+
CVPR+
ICCV+
ECCV+
NeurIPS+
ICML+
PyTorch+
深度学习+
Python+
AI agent+
相关职位

logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

研究方向一:图像生成大模型技术研究 1.负责下一代图像生成模型架构建设,包括但不限于AR-Diffusion、生成编辑统一架构构建; 2.负责生图专项能力升级,包括Reward model设计、多语言文字生成能力。 研究方向二:视频生成大模型技术研究 1.负责下一代视频生成模型架构建设,以及高效率、低精度损失、高压缩比的视频VAE和tokenizer建设; 2.负责视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。 研发方向三:视觉内容创作Agent 1.负责对话式创作助手核心能力攻坚,包括图像视频创作场景的CoT能力、交互式编辑能力提升。 2.负责图文海报、剧情化成片等典型应用场景的模型微调、Agent能力建设。 研究方向四:拟人化多模交互前沿路线研究 1.构建多模输入的人物视频生成模型,具备高度拟人化的面部驱动、人体动作生成。 2.构建基于多模态大模型的端到端交互模型,实现智能双工交互和人-物-场景的交互。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

数据与训练方向: 1.大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果。 2.合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破。 3.多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等。同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计:设计高效的大模型架构以提升训练和推理效率。探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本。 后训练方向: 1.后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力; 2.后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界; 3.面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐; 4.面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果; 5.前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

1.面向高效训练和推理的模型架构设计,包括但不限于MoE架构和稀疏注意力机制,模型编辑和合并,模型压缩和推理加速方法等。 2.面向复杂的多模态推理交互场景,研究突破多模态推理强化、多模态奖励模型、test time scaling和全模态COT等,提升模型处理复杂多模态任务的能力和全模态交互水平。 3.探索多模态预训练新范式,包括多模态能力早期融合(Early-Fusion)、理解和生成的统一建模、研究多模态扩展定律(Scaling Law)指导数据和训练方案、扩展超长上下文机制支持全模态场景等,突破模态融合瓶颈,推动全模态能力跃迁。

更新于 2025-05-23