logo of meituan

美团【LongCat大模型人才校招】基础模型 - 多模态

校招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


熟悉 Python,熟练使用 PyTorch/Megatron/DeepSpeed 等训练框架,满足以下至少一项:
1.有大规模多模态预训练相关的训练经验;
2.对视觉表征设计、多模融合策略、生成范式等有深入理解,有独立探索新方向的研究经验…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


探索下一代原生多模态基础模型:让模型不止于接入视觉能力,而是能够统一建模文本、图像、视频与交互过程,像理解文字一样理解视觉世界,并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系,包括离散视觉 token、连续视觉表征及其混合形式,使图像与视频能够被基础模型高效学习、组合和生成。
你将参与以下方向中的一个或多个:
1.研究多模态与文本模态的深度融合策略,包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等,实现视觉能力与语言能力的协同提升。
2.从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据,覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态,支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。
3.设计兼顾理解、重建与生成的视觉表征体系,包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征;基于理解与生成统一的表征,规模化构建图文交错、视频序列等多模态自监督预训练数据,解锁新的多模态智能维度。
4.基于理解与生成统一的模型能力,探索长程、多轮的多模态生成与交互任务,通过端到端强化学习激发模型的自我评估和迭代修正能力;进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。
【为什么是我们】
1.明确的技术判断:团队在原生多模态方向有非共识的长期投入,已发布 LongCat-Next 技术报告(离散自回归原生多模态),不是跟随式的能力补齐。
2.顶级资源支撑:5~6万卡计算集群,万亿参数文本基座已训练完成,多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。
3.主线与探索并行:既承担多模态基座的核心交付工作,也推进下一代原生多模态架构的前沿探索,覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
包括英文材料
Python+
PyTorch+
Megatron+
DeepSpeed+
还有更多 •••