美团【LongCat大模型人才校招】基础模型 - 多模态
校招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
熟悉 Python,熟练使用 PyTorch/Megatron/DeepSpeed 等训练框架,满足以下至少一项: 1.有大规模多模态预训练相关的训练经验; 2.对视觉表征设计、多模融合策略、生成范式等有深入理解,有独立探索新方向的研究经验…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
探索下一代原生多模态基础模型:让模型不止于接入视觉能力,而是能够统一建模文本、图像、视频与交互过程,像理解文字一样理解视觉世界,并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系,包括离散视觉 token、连续视觉表征及其混合形式,使图像与视频能够被基础模型高效学习、组合和生成。 你将参与以下方向中的一个或多个: 1.研究多模态与文本模态的深度融合策略,包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等,实现视觉能力与语言能力的协同提升。 2.从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据,覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态,支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。 3.设计兼顾理解、重建与生成的视觉表征体系,包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征;基于理解与生成统一的表征,规模化构建图文交错、视频序列等多模态自监督预训练数据,解锁新的多模态智能维度。 4.基于理解与生成统一的模型能力,探索长程、多轮的多模态生成与交互任务,通过端到端强化学习激发模型的自我评估和迭代修正能力;进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。 【为什么是我们】 1.明确的技术判断:团队在原生多模态方向有非共识的长期投入,已发布 LongCat-Next 技术报告(离散自回归原生多模态),不是跟随式的能力补齐。 2.顶级资源支撑:5~6万卡计算集群,万亿参数文本基座已训练完成,多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。 3.主线与探索并行:既承担多模态基座的核心交付工作,也推进下一代原生多模态架构的前沿探索,覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
还有更多 •••