美团【LongCat大模型人才校招】基础模型 - 多模态

校招全职核心本地商业-基础研发平台2026-06-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

熟悉 Python，熟练使用 PyTorch/Megatron/DeepSpeed 等训练框架，满足以下至少一项：
1.有大规模多模态预训练相关的训练经验；
2.对视觉表征设计、多模融合策略、生成范式等有深入理解，有独立探索新方向的研究经验…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

探索下一代原生多模态基础模型：让模型不止于接入视觉能力，而是能够统一建模文本、图像、视频与交互过程，像理解文字一样理解视觉世界，并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系，包括离散视觉 token、连续视觉表征及其混合形式，使图像与视频能够被基础模型高效学习、组合和生成。
你将参与以下方向中的一个或多个：
1.研究多模态与文本模态的深度融合策略，包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等，实现视觉能力与语言能力的协同提升。
2.从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据，覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态，支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。
3.设计兼顾理解、重建与生成的视觉表征体系，包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征；基于理解与生成统一的表征，规模化构建图文交错、视频序列等多模态自监督预训练数据，解锁新的多模态智能维度。
4.基于理解与生成统一的模型能力，探索长程、多轮的多模态生成与交互任务，通过端到端强化学习激发模型的自我评估和迭代修正能力；进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。
【为什么是我们】
1.明确的技术判断：团队在原生多模态方向有非共识的长期投入，已发布 LongCat-Next 技术报告（离散自回归原生多模态），不是跟随式的能力补齐。
2.顶级资源支撑：5～6万卡计算集群，万亿参数文本基座已训练完成，多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。
3.主线与探索并行：既承担多模态基座的核心交付工作，也推进下一代原生多模态架构的前沿探索，覆盖"数据→tokenizer→预训练→后训练→RL"全链路。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

PyTorch+

Megatron+

DeepSpeed+

还有更多 •••

登录查看完整学习资料