阿里云研究型实习生 - 视觉多模态模型的细粒度理解及对齐技术研究
任职要求
1、完成面向多模态大模型中关键技术问题的算法研究; 2、完成以上算法在业务场景的落地验证,提升实际业务数据上的性能指标; 3、发表高水平的学术成果。
工作职责
多模态大模型技术(large multimodal models,LMM)是整个学术界和工业界的研究热点,但当前的主流技术方案在面对复杂的自然图像时,细粒度理解能力仍存在明显缺陷,大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题,从而提升多模态大模型的视觉能力,推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向:(1)细粒度图文对齐学习技术(Fine-grained image-text alignment);(2)多模态上下文学习技术(Multi-modal in-context learning);(3)多模态代理技术(Multi-modal agents)。
研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。
几何图形推理是多模态大模型领域的重要研究课题。随着深度学习技术的发展,尤其是多模态大模型的崛起,其在语义理解、图像分析和跨模态任务中的应用引起了广泛关注。几何推理涉及图形的识别、分类、分析和推导,是理解空间关系和逻辑关系的重要手段。在教育、机器人和自动驾驶等领域,掌握几何推理能力的智能系统具有重要的应用价值。 追踪多模态、图像处理、自然语言处理、图像视频生成、OCR&多模态文档分析理解等前沿技术,在一个或多个方向进行深入研究,发表高水平论文或期刊; 联合学习图像与文本模态,对图形进行细粒度的grounding、parsing和comprehension,以实现模型对平面或立体图形的理解; 利用强化学习进行几何关系推理,探索适合几何图形和空间图形推理的强化学习算法; 构建大规模的几何图形识别、解析和推理数据集,以训练和评估大模型对图形的理解和推理能力。
研究领域: 人工智能 项目简介: 随着人工智能技术的快速发展,多模态大模型(Multimodal Large Language Models, MLLMs)在跨模态理解与生成领域取得了突破性进展。然而,在图像分割、目标识别及定位、视觉关系理解、目标计数等基础视觉任务中,现有MLLMs与传统视觉模型仍存在显著性能差距。这种短板严重制约了多模态技术在视频分析、图像识别等高精度视觉场景中的应用落地。 本项目期望探索更有效的多模态视觉表征,及视觉与LLM融合机制,提升多模态能力上限。