阿里云研究型实习生-视频理解与生成应用算法
任职要求
1. 博士在读,计算机相关专业优先; 2. base地可选北京和杭州,杭州优先; 3. 具有扎实的计算机视觉或大模型算法基础,对主流大模型的原理和使用有深入的理解,有成果发表在CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR等国际顶级会议期刊者优先; 4. 可以持续实习至少6个月。
工作职责
专注于视频理解与生成应用算法研究,具体研究内容包括: 1.视频理解:通过高质量数据构建方案,实现视频的精细主体/运动/场景描述以及长视频结构化描述(如人物关系、情节发展、故事主旨),支持长视频问答与精准时序定位。同时结合R1等前沿思维链技术解析复杂视频事件,视频逻辑推理等; 2.视频生成:聚焦视频DiT/AR等前沿架构下的垂类微调,包括复杂人体运动/场景动效生成与可控编辑技术,研究多模态指令驱动的视频编辑、人体运动增强及物理约束建模方法,提升生成视频的动态质量与风格迁移能力。
专注于视频理解与生成应用算法研究,具体研究内容包括: 1.视频理解:通过高质量数据构建方案,实现视频的精细主体/运动/场景描述以及长视频结构化描述(如人物关系、情节发展、故事主旨),支持长视频问答与精准时序定位。同时结合R1等前沿思维链技术解析复杂视频事件,视频逻辑推理等; 2.视频生成:聚焦视频DiT/AR等前沿架构下的垂类微调,包括复杂人体运动/场景动效生成与可控编辑技术,研究多模态指令驱动的视频编辑、人体运动增强及物理约束建模方法,提升生成视频的动态质量与风格迁移能力。
研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。
近年来,"指定目标编辑"(Target Editing in Text-to-Image Generation)作为文图生成领域的一项前沿挑战,日益成为学术界与技术开发者关注的焦点。该挑战的核心在于探索如何精准依据文本指令,对图像的特定组成部分进行创造或修改操作,例如在既定场景中增添或移除元素,这不仅要求算法深刻理解复杂的自然语言指令,还必须具备在图像空间中进行精准定位与操作的能力。尽管当前的先进文图生成模型(诸如StableDiffusion、Midjourney、Dalle-3)在整体图像合成上展现了卓越性能,但在面对目标导向的精细编辑任务时,仍面临显著的技术局限性。如何有效生成并编辑出既逼真又能精确符合复杂文本描述特征的图像内容,构成了一个充满挑战且蕴藏广阔研究价值的课题。这里的“特定目标”概念广泛,涵盖了从特定个体的人脸复原到具有详细规格的商品设计,乃至含有特定情境特征的场景构造。该领域的探索不仅推动了算法在理解与执行高级语义指令上的能力边界,也为解决一系列基础科学问题提供了舞台,比如如何实现更广泛的编辑对象覆盖、优化控制参数以达到细腻的编辑效果、以及实现高效的目标定位与特征匹配等。这些技术瓶颈的突破,将为图像处理、人机交互、乃至创意设计行业带来颠覆性的进步。
我们是阿里妈妈智能创作与AI应用团队, 长期从事利用CV NLP等多模态和多媒体技术进行内容创作、内容理解的算法工作,团队耕耘技术多年,在电商创意素材生成领域 有广泛的业界影响力,研发出阿里妈妈创意中心、万相实验室等产品以及阿里妈妈智能图片制作(Auto Poster)、阿里妈妈视频生成(AtomoVideo)等技术,研究成果发表在 CVPR、ICCV、AAAI、ACM MM、WWW、ACL 等学术顶会。 我们诚挚欢迎你加入团队,工作内容为下列之一: 1. 需要1年Diffusion Models扩散图像生成经验(强相关)。1年图像领域相关经验。 2. 需要在广告 或者 电商 场景的图像算法应用经验。 3. 需要在图像生成方向有顶会论文,CVPR,ECCV,NIPS,MM。