美团【基座大模型北斗实习】多模态大模型能力与前沿交互方式研究
任职要求
1、硕士及以上学历,计算机或相关专业,博士优先。; 2、在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶…
工作职责
简介:多模态大模型能力在近年飞速发展,模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中,我们需要脚踏实地的同时仰望星空,发挥想象力预判新模型能力带来的应用场景革新,研究达到理想态的关键演进路径并进行度量分析,指引长期有潜力的模型迭代方向。方向包括但不限于: 1、多模Agent方向:包括在多模态的工具调用和GUI/CUA,探索结合多模原生能力的OpenClaw展现出的生产力提升潜力,从基座模型能力角度分析其中的关键影响因素并进行自动化度量,指引基座模型的迭代。 2、多模态统一方向:包括全模态统一模型、音视频联合生成等,思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量,分析模态和任务间的相互关联,指引模型架构、训练策略等选型。 3、多模交互方向:包括通用世界模型、音视频交互等,研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量,指引基座模型的迭代。
简介:原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。 研究课题包括但不限于: 1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。 2、原生全模态预训练的training dynamic探究,模态之间的关系建模。 3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
简介:从多模态大模型基座延伸到具身智能,我们的目标是做到具身智能的“GPT时刻”,具备test-time zero-shot/few-shot的跨本体、跨任务泛化。在这个过程中,我们进行具身智能在泛化能力评测分析和关键迭代路径的探索,包括但不限于: 1、探索激发多模态大模型Training-Free泛化能力的Data-Scaling方案(包括VLA和VA),迁移人类数据到具身本体,包括latent action和unified model等方向。 2、探索通过世界模型作为物理仿真引擎的进阶,兼顾仿真和真机的优点,实现泛化评测、强化学习和多样性数据合成。 3、探索通过环境交互的在线强化学习,涉及仿真环境的搭建、数据合成和真机实验,研究通过自我进化的下一代智能提升的关键途径。
语音基座大模型是下一代语音算法的基础,也是多模态大模型研究的重要组成部分。本课题研究方向包括不限于: 1)预训练方法研究:设计预训练任务,使训练可大规模扩展,且能够学习到丰富的知识,使得模型同时具备强大的理解和生成能力,进一步实现能力的涌现。 2)tokenizer 优化:探索同时适用于理解和生成任务、兼顾学习效率和效果的tokenizer。 3)泛音频理解:对语音理解之外,探索更广泛的音频(如音乐、环境声)理解能力,以及基于 reasoning 的理解能力。 4) token2wav:与基座大模型配合,实现高效、高质量的语音/音频生成。 5) post-training:探索基于 SFT 和 RL 的后训练策略,激活基座模型的理解和生成能力,实现通用的音频能力,并具备强表现力、多风格、多语种、多音色的能力。
简介:我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里,环境向真实物理世界演化是一个可以预见的方向,从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力,一方面,我们认为游戏是一个高度可验证、同时充满训练潜力的场景;另一方面,如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。 具体的,我们关注如下研究目标: 1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。 2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。 3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。