美团多模态模型研究-具身智能方向算法实习生

实习兼职核心本地商业-基础研发平台2026-07-21地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、数学、统计学或相关专业。
2. 熟悉Java/Python/C++等编程语言，良好的编码习惯和一定的工程能力 。
3. 具有深度学习和大模型原理的基础知识，具有多模态大模型、具身智能或强化学习之一的研究经验。
4. 良好的沟通能力、团队合作精神以及较强的问题解决能力。 
5. 对每一行代…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

主要负责多模态大模型在具身智能方向的模型能力分析和训练策略优化，并且对训练数据、训练策略和模型能力之间的关系进行研究分析，产出可行的模型评测方案和训练策略，具体工作内容包括但不限于：
1. 追踪多模态大模型在具身智能方向的前沿进展，积极学习新的模型结构、前沿模型认知，并进行深入分析。
2. 建设验证具身智能的GPT时刻的评测方案和度量分析方法，指引行业的技术迭代；
3. 探索VLA的data-scaling方案，通过VLM的基座能力提升来推进具身任务泛化，实现zero-shot/few-shot的跨任务、跨本体的泛化；
4. 积极探索多模态大模型同环境交互的学习方法，研究通过强化学习的下一代智能提升的关键途径。
5. 与各相关部门保持良好沟通，深度参与多模态模型的训练过程，共同推动多模态大模型持续优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

Python+

C+++

编程规范+

深度学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

LongCat - 大模型基座认知分析算法研究员（具身前沿研究、多模态评测）

社招1年以上核心本地商业-基

主要负责多模态大模型在全模态（包括图像、视频、语音）的生成和理解、具身智能和GUI Agent等方向的模型能力分析和训练策略优化，并且对训练数据、训练策略和模型能力之间的关系进行研究分析，产出可行的模型评测方案和训练策略，具体工作内容包括但不限于： 1. 追踪多模态大模型的前沿进展，积极学习新的模型结构、前沿模型认知，并进行深入分析。 2. 在具身智能方向中，探索VLA的data-scaling方案，指引VLM的关键能力提升；探索视频生成基座以及统一模型的潜力，包括但不限于世界模型训练和效果度量；积极探索VLA/VLM同环境交互的学习方法，涉及仿真和真机实验，研究通过强化学习的下一代智能提升的关键途径。  3. 在全模态统一生成理解方向中，研究达到理想态的关键演进路径并进行度量分析，指引长期有潜力的模型迭代方向。  4. 与各相关部门保持良好沟通，深度参与多模态模型的训练过程，共同推动多模态大模型持续优化。

更新于 2026-06-22北京|上海

【实习】多模态创作大模型研究-智能创作（上海）

实习A248661

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。课题介绍：随着AGI大模型技术发展，AI多模态图文视频创作范式迎来深刻变革，基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术，构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式，持续提升模型在内容理解、图像视频生成的能力上限，端到端优化基础模型在创作Agent场景下的整体效果。课题挑战： 1、深入参与Seed多模态模型及大语言模型后训练（SFT/RL）实践； 2、参与图像视频生成与统一建模，推动模型效果优化的能力，深度体验模型迭代与大规模实训； 3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力，深入研究Agentic RL领域。课题价值：本课题聚焦AGI时代多模态创作变革，依托全模态理解、AIGC生成与Agentic基座模型等前沿技术，构建高效智能的多媒体创作体系。通过持续训练与模型优化，不断突破内容生成与理解能力，推动AI创作从被动生成走向自主智能，兼具技术前沿性与产业落地价值，为下一代智能创作提供核心支撑。

更新于 2026-04-20上海

【实习】多模态创作大模型研究-智能创作（深圳）

实习A240421A

更新于 2026-04-20深圳

多模态大模型研究-阿里星

实习阿里巴巴2027

负责淘天用户&内容场域的AI内容生成和用户内容理解，技术落地涉及淘天信息流、搜索、商详、互动等核心场域，内容形式涉及图文、视频、语音等。通过上述场域的持续数据积累，为各场域提供多样性、个性化的AI生成和理解能力，打造淘天场域最优秀的内容AI团队。相关研究课题细分方向如下： 1.【多模态统一大模型】:结合开源及淘内丰富多模态数据，打造用户内容场域统一端到端多模态模型，支持多模态输入输出，性能达到业内先进水平，并持续推动在多模态内容生产、互动人机对话等垂直场域的应用。 2.【多模态文本大模型】:通过多模态对齐、多模态RL等方式，提升多模态模型数据融合及人类偏好对齐能力，结合各场域数据开发更懂用户的多模态文本大模型，落地互动、比货、导购、用户内容理解等场域。具体工作内容如下： 1、基于淘天海量商品数据，打造技术先进的电商多模态大模型，提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力，输出底层算法能力和高质量结构化数据，支撑发布、比货、导购等多种电商业务场景，并面向商家和消费者探索AIGC等创新业务应用。工作内容包括模型结构设计、训练任务设计、预训练和下游能力建设等。 2、基于淘天用户丰富的消费行为，打造技术先进的电商用户理解多模态大模型，提升对用户的异构行为本质的认知能力，支撑用户个性化的搜索、商详、互动等多种电商业务场景。 3、跟踪、探索大模型方向/多模态预训练方向的前沿技术，将各方向的SOTA能力集成到模型底座上，提升下游任务的效果，打造团队的技术先进性。

更新于 2026-03-17北京|杭州