美团LongCat - 多模态交互算法研究员

社招全职1年以上核心本地商业-基础研发平台2026-05-28地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1、计算机、人工智能等相关专业硕士/博士学位，具备扎实的视觉、语音和深度学习学习理论功底；
2、深入理解VLM，Audio LLM等至少一项前沿技术；
3、精通 PyTorch，具备大规模分…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、多模态实时表征探索，研究视频与语音的视觉表征、Audio 表征以及底层模型结构，构建支撑双工交互的感知底座，攻克实时性与表达力的平衡。
2、全模态模型结构与训练策略，探索统一的模型架构与训练范式，使模型能够充分融合视觉、语音、文本的理解与生成能力，逼近全模态统一智能。
3、实时交互核心算法，研发面向人机自然对话的打断、判停与时机决策机制，让模型在复杂声学与多说话人场景下做到自然不抢话、不漏话、在恰当时机主动发起交互。
4、下一代交互范式探索，研究交互式思考 模型、流式工具调用等前沿能力，定义下一代多模态实时交互大模型的形态边界。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

深度学习+

大模型+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

【LongCat大模型人才校招】多模态交互算法研究员

校招核心本地商业-基

LongCat 是美团基础研发自主研发的大模型，覆盖语言、视觉、语音、具身全栈。LongCat 相继推出 LongCat-Flash、LongCat-Flash-Thinking、LongCat-Flash-Omni 等系列模型，正在构建多模态实时交互大模型。加入团队你将参与如下工作 1. 多模态实时表征探索，研究视频与语音的视觉表征、Audio 表征以及底层模型结构，构建支撑双工交互的感知底座，攻克实时性与表达力的平衡。 2. 全模态模型结构与训练策略，探索统一的模型架构与训练范式，使模型能够充分融合视觉、语音、文本的理解与生成能力，逼近全模态统一智能。 3. 实时交互核心算法，研发面向人机自然对话的打断、判停与时机决策机制，让模型在复杂声学与多说话人场景下做到自然不抢话、不漏话、在恰当时机主动发起交互。 4. 下一代交互范式探索，研究交互式思考模型、流式工具调用等前沿能力，定义下一代多模态实时交互大模型的形态边界。【为什么是我们】 1.全栈顶配算力支持，依托美团大规模算力集群，提供千卡至万卡级算力支持，具备成熟的分布式训练与低延迟推理优化栈，保障世界动作模型与 VLA 大规模训练。 2.与优秀人才同行，你将与行业顶尖的大模型研究员及机器人领域专家并肩作战，共同攻克具身智能的技术难点。

更新于 2026-06-03北京|上海

【LongCat实习】基座评测与认知分析-多模态与前沿交互研究

实习核心本地商业-基

多模态大模型能力在近年飞速发展，模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中，我们需要脚踏实地的同时仰望星空，发挥想象力预判新模型能力带来的应用场景革新，研究达到理想态的关键演进路径并进行度量分析，指引长期有潜力的模型迭代方向。方向包括但不限于 1.多模Agent方向：包括在多模态的工具调用和GUI/CUA，探索结合多模原生能力的OpenClaw展现出的生产力提升潜力，从基座模型能力角度分析其中的关键影响因素并进行自动化度量，指引基座模型的迭代； 2.多模态统一方向：包括全模态统一模型、音视频联合生成等，思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量，分析模态和任务间的相互关联，指引模型架构、训练策略等选型； 3.多模交互方向：包括通用世界模型、音视频交互等，研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量，指引基座模型的迭代；【为什么是我们】一起建立行业评测标杆，推动行业认知进展，代表工作包括： 1.UNOBench 行业首个考察全模态协作能力，并得出全模态和单模态能力Compositional Law，指引1+1+1>3的全模态能力发展。 2.EvalTalker 行业首个多人、多姿态、全景覆盖的数字人评测基准，指引自研Longcat-Avatar模型稳居业界前沿。 3.UniHetero 行业首个验证生成能促进理解的unified model，以简洁的结构在大规模数据上得到更好的data-scaling。

更新于 2026-07-01北京|上海

【LongCat大模型人才校招】基座评测与认知分析-多模态与前沿交互研究

校招核心本地商业-基

更新于 2026-06-03北京|上海

LongCat - 多模态算法研究员

社招1年以上核心本地商业-基

探索下一代原生多模态基础模型：让模型不止于接入视觉能力，而是能够统一建模文本、图像、视频与交互过程，像理解文字一样理解视觉世界，并在真实物理场景中进行推理、生成和行动。我们将重点探索统一的多模态表征体系，包括离散视觉 token、连续视觉表征及其混合形式，使图像与视频能够被基础模型高效学习、组合和生成。你将参与以下方向中的一个或多个： 1、研究多模态与文本模态的深度融合策略，包括 early fusion 架构设计、多模态 / 文本数据配比优化、多模态上下文建模等，实现视觉能力与语言能力的协同提升。 2、从互联网及业务场景中大规模挖掘、清洗和构建高质量多模态训练数据，覆盖图文交错、视频、网页、文档、GUI、代码和交互轨迹等数据形态，支撑模型在 browser use、复杂文档理解、vision-to-code 等生产力场景的能力突破。 3、设计兼顾理解、重建与生成的视觉表征体系，包括离散视觉 tokenizer、多尺度视觉 token、视频 tokenization 以及连续 / 离散混合表征；基于理解与生成统一的表征，规模化构建图文交错、视频序列等多模态自监督预训练数据，解锁新的多模态智能维度。 4、基于理解与生成统一的模型能力，探索长程、多轮的多模态生成与交互任务，通过端到端强化学习激发模型的自我评估和迭代修正能力；进一步探索未来帧预测、状态建模和交互轨迹学习在物理视觉世界中的推理、规划与行动能力。

更新于 2026-05-28北京|上海