蚂蚁金服研究型实习生-视频多模态信息识别&冲突检测
任职要求
研究领域: -目前正在攻读计算机科学、统计学或相关专业的硕士或博士学位 -至少精通一种编程语言,如Python、Java等,熟悉主流深度学习工具TensorFlow/Pytorch/Caffe/MXNet/等 -具有扎实的CV、LLM、深度学习理论知识,有相关行业或者实验室研究背景 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力,在新知识自学、问题分析、解决问题方面表现出色; -有顶级机器视觉和AI领域会议、期刊论文发表 -至少6~12个月的全职工作
工作职责
研究领域: 计算机视觉 项目简介: 研究背景与目标: 金融科技领域中,企业客户尽职调查(Due Diligence)的准确性和效率至关重要。蚂蚁集团为企业客户提供的自助视频尽调服务是一个典型应用场景。然而,多模态信息的整合和一致性验证仍面临诸多挑战。本研究旨在探索基于多模态理解的创新方法,以提高尽调过程的准确性和可靠性。 研究重点: 1. 开集跨帧物体识别与跟踪: 目标:开发基于预训练多模态大模型的算法,实现视频中的开集物体识别和跨帧跟踪。 创新点:处理复杂场景下的遮挡和外观变化问题,提高识别的鲁棒性。 方法:探索结合注意力机制和时序建模的算法架构。 2. 跨模态一致性检验: 目标:构建基于Chain-of-Thought (CoT)推理的多模态信息冲突检测系统。 创新点:整合文本、视频和表格数据,实现跨模态的语义一致性验证。 方法:研究多模态表示学习和语义对齐技术,设计新型的基于CoT的冲突检测算法。
研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。
研究领域: 机器学习 项目简介: 近年来学术界和工业界均在计算机视觉、自然语言处理及语音识别方向上取得了突破性进展,因此融合多模态深度学习框架也越来越受到关注。随着金融科技的发展,多模态数据, 包括但不限于文本、图像、视频、声音、序列等模态的多样化数据已经成为金融机构不可或缺的一部分。因此,我们计划搭建金融领域的多模态安全大模型,处理包括但不限于文本、图像、视频甚至声音在内的多样化信息输入,并利用这些信息来进行风险评估、欺诈检测等关键任务,旨在通过整合多种类型的数据源来提升金融服务的安全性、准确性和效率。
近期,随着OpenAI发布第一个文生视频大模型Sora,其能够生成包含复杂场景、生动角色表情及复杂镜头运动的长视频,进一步引起了业界的广泛关注。目前,现有的视频转音频技术[9-11] 通常采用联合训练方式,利用预训练的跨模态基础模型[12-13] 或扩散模型来解决这一问题。然而,这些方法未能全面挖掘音视频多模态信息之间的精确对应关系(比如: 时间、节奏、远近、材质、内容、方向、速度、等等),仅能得到宽泛的音视频对应关系, 离实际应用(比如真正的短视频以及电影配音)尚有很大差距。并且后续精确的配音可以向全景声以及立体环绕声方向发展,和VR以及 AR 以及娱乐产业结合。 本研究题目拟解决基于内容理解的视频到音频的精确生成问题。
随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。 因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。