logo of tongyi

通义研究型实习生-视频自动的音效/配乐技术

实习兼职通义研究型实习生地点:杭州 | 上海状态:招聘

任职要求


1、博士/硕士研究生,计算机等相关专业优先。 
2、有扎实的理论基础,对大模型相关技术研究感兴趣。 
3、在相关顶会或期刊发表论文、在高水平技术评测或竞赛中获得Top成绩、在开源组织有贡献或影响力者优先。

工作职责


近期,随着OpenAI发布第一个文生视频大模型Sora,其能够生成包含复杂场景、生动角色表情及复杂镜头运动的长视频,进一步引起了业界的广泛关注。目前,现有的视频转音频技术[9-11] 通常采用联合训练方式,利用预训练的跨模态基础模型[12-13] 或扩散模型来解决这一问题。然而,这些方法未能全面挖掘音视频多模态信息之间的精确对应关系(比如: 时间、节奏、远近、材质、内容、方向、速度、等等),仅能得到宽泛的音视频对应关系, 离实际应用(比如真正的短视频以及电影配音)尚有很大差距。并且后续精确的配音可以向全景声以及立体环绕声方向发展,和VR以及 AR 以及娱乐产业结合。 本研究题目拟解决基于内容理解的视频到音频的精确生成问题。
包括英文材料
大模型+
相关职位

logo of alibaba
实习淘天集团研究型实

在这里,你将参与淘宝直播及短视频等丰富的内容业务场景,围绕“更好听、更好看、更好玩”,和其他优秀的同学一起,为用户提供极致的体验; 在这里,你将负责为用户提供最优的音质,负责音频增强及编码相关算法研发,包括但不限于音频3A算法(降噪、回声消除、自动增益)、音频编码、人声美化,虚拟音效、空间音频等算法; 在这里,你将负责音乐相关算法研发,包括但不限音乐理解、音乐检索、音乐生成、智能配乐等算法; 在这里,你将负责面向RTC的音视频传输算法优化,包括但不限于带宽预测、拥塞控制、多码率自适应、音视频弱网对抗等算法; 在这里,你将会持续关注AI音视频、AI传输等相关领域的前沿算法,并针对真实场景,把算法落地应用到实际项目中。 加入我们,你将会面对新的内容场景,通过技术深耕,致力于行业领先的音视频技术创新和应用,帮助创造极致的消费者体验。 你的工作将服务于改善全世界数十亿人的购物、娱乐和交互的体验。 探索未知,挑战未来,来吧,我们等你加入!

更新于 2025-08-04
logo of tongyi
实习通义研究型实习生

随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。 因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。

更新于 2024-12-12
logo of tongyi
实习通义研究型实习生

近年来,随着人工智能和深度学习技术的迅猛发展,多模态大模型(Multi-modal Large Models)取得了显著的进展。这些模型能够通过处理多种数据类型(如文本、图像、视频、音频等)来完成复杂的任务,与传统单一模态模型相比,展现出更强的理解与推理能力。尤其是在语言、视觉和音频等领域,多模态大模型为诸多实际问题提供了创新的解决方案,并越来越广泛地应用在产业和科研领域,显著提高了自动化和智能化的水平。 本项目将着眼于以下几个层面技术,以推进多模态大模型对于世界的感知和交互: 1.动态视内容的理解:提升多模态大模型可以实现对视频内容的自动理解与分析能力。 2.提升模型对于图像中人类知识的理解的识别水平。 3.多模态大模型推理与理解能力的持续提升。

更新于 2025-02-20
logo of alibaba
实习淘天集团研究型实

希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。

更新于 2025-05-06