蚂蚁金服研究型实习生-强交互世界模型中的动作编辑和交互式生成
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 计算机视觉 项目简介: 随着人工智能技术的迅猛发展,尤其是在计算机视觉、语音、自然语言处理和人机交互等领域的突破,基于自研多模态认知架构构建的新一代人工智能系统,深度融合视觉、语音、文本等多维度感知能力。实现多源信息的实时对齐与协同推理,可灵活部署于云端、边缘设备等多种场景。
近年来,随着人工智能和深度学习技术的迅猛发展,多模态大模型(Multi-modal Large Models)取得了显著的进展。这些模型能够通过处理多种数据类型(如文本、图像、视频、音频等)来完成复杂的任务,与传统单一模态模型相比,展现出更强的理解与推理能力。尤其是在语言、视觉和音频等领域,多模态大模型为诸多实际问题提供了创新的解决方案,并越来越广泛地应用在产业和科研领域,显著提高了自动化和智能化的水平。 本项目将着眼于以下几个层面技术,以推进多模态大模型对于世界的感知和交互: 1.动态视内容的理解:提升多模态大模型可以实现对视频内容的自动理解与分析能力。 2.提升模型对于图像中人类知识的理解的识别水平。 3.多模态大模型推理与理解能力的持续提升。
多模态世界模型前沿技术研究项目,旨在进行如下课题研究: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于万相用户反馈的RLHF 视频生成质量提升。
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。 因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。