通义研究型实习生-多模态理解和生成统一模型(图像+视频+音频方向)
任职要求
1、在读博士,计算机视觉、多模态理解和表征学习、Vision-Language理解和生成大模型相关训练经验和落地经验者优先。 2、熟练掌握计算机视觉领域的基础理论和方法,熟悉P…
工作职责
1、理解-生成融合范式: 研究理解模型和生成模型的有效融合范式,例如探索Diffusion-Transformer (DiT) 和 Auto-Regressive (AR) 模型的融合与交互方式。 2、融合音频数据的统一模型: 将音频数据融入现有的多模态理解和生成框架,构建更全面的多模态统一模型。 3、统一Tokenizer研究: 探索适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer,提高模型的泛化能力和效率。
研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。
研究领域: 人工智能 项目简介: 多模态模型在图像生成、文本生成、语音合成等多个领域取得了显著进展。然而,现有的多模态模型往往侧重于单一任务,如生成任务或理解任务,缺乏在生成和理解之间建立有效互动的机制。这种割裂导致了模型在处理复杂任务时的局限性,例如生成高质量的图像或文本时缺乏丰富的语义信息,而在理解和推理任务中又难以捕捉到低层次的视觉细节。 此外,当前最新的自监督学习(如SD-DiT,Return of Unconditional Generation)和一些生成模型的研究(如Representation Alignment for Generation)表明,生成任务和理解任务之间存在互补关系。生成任务能够提供低层次的视觉细节,有助于提高表示学习的质量;而理解任务则能够提供高层次的语义信息,有助于生成模型生成更具意义的内容。因此,构建一个能够同时处理生成和理解任务的统一模型,对于推动多模态模型的发展具有重要意义。 技术价值 多模态生成与理解的互补:通过将生成任务与理解任务相结合,可以生成更具语义丰富性和视觉细节的高质量图像和文本,满足更多应用场景的需求。 提升表示学习质量:生成任务提供的低层次视觉细节可以增强表示学习的质量,提高模型在理解和推理任务中的表现。 创新研究方法:探索生成任务和理解任务之间的相互作用机制,为多模态模型的理论研究提供新的视角和方法。 业务价值 提升用户体验:在探一探和支小宝等多模态多任务耦合的复杂场景中提升性能,改善用户留存。 拓展应用场景:通过统一模型和更高性能有助于探索更多复杂业务落地。
研究领域: 其他 项目简介: 从语音通用理解能力上,以大模型、大数据驱动语音理解能力的提升,通过语音大模型统一基座,变革训练范式,从有监督学习到半监督学习、指令遵循优化、生成式响应等新范式,并融合多模态信息,达到甚至超过人类语音内容要素理解的水平。从交互方式上,端到端的大模型语音交互,从语音理解到语音生成,大大降低交互的延时。