通义研究型实习生-多模态上下文中的音频生成技术研究
任职要求
1、扎实的代码能力,优良的编程风格,熟悉Pytorch、TensorFlow等常用的深度学习框架,能够从基础的神经网络层构建较为复杂的模型结构,具备深度神经网络的设计、开发、调试能力,掌握Python、Shell等常用编程语言。 2、对语音和音频信号有比较深入的认识,清楚基频、音色等概念对应的物理特性,熟悉常见的多模态大模型和音频生成框架,了解前沿技术动态。 3、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心。 加分项: 1、有突出的学术背景和创新研究能力,在机器学习或语音领域的顶级学术期刊或会议上以第一作者发表过论文者优先。 2、参与过音频生成模型或TTS模型的开发,熟悉当前流行的语音生成模型,例如:CosyVoice、F5TTS、SparkTTS、SeedTTS、MaskGCT、MegaTTS、NaturalSpeech等。
工作职责
专注于音频生成大模型的研究、探索和开发,具体职责包括: 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。
多模态大模型技术(large multimodal models,LMM)是整个学术界和工业界的研究热点,但当前的主流技术方案在面对复杂的自然图像时,细粒度理解能力仍存在明显缺陷,大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题,从而提升多模态大模型的视觉能力,推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向:(1)细粒度图文对齐学习技术(Fine-grained image-text alignment);(2)多模态上下文学习技术(Multi-modal in-context learning);(3)多模态代理技术(Multi-modal agents)。
研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。
研究领域: 多媒体 项目简介: 在支付宝平台上,存在着海量的帖子、文章、评论、商品信息、社群内容、以及其他各种形式的数字化内容,如何有效地对这些内容进行压缩和表示,是提升信息处理效率和赋能下游应用的关键。现有内容表征方法面临以下挑战: 1. 表征效率低下: 传统方法往往难以有效处理海量内容数据,表征效率较低,计算成本高昂。 2. 表征能力不足: 难以有效捕捉内容中的关键语义信息和上下文关联,表征能力有限,难以满足复杂应用的需求。 3. 通用性差: 现有方法往往针对特定类型或特定模态的内容,通用性较差,难以适应多样化的应用场景。 计划研发研发一种通用和灵活的基于大模型架构的内容表征引擎,能够对海量、多模态内容进行高效压缩和精准表征,为下游应用提供统一、高效的信息处理基础。 - 助力内容认知和理解场景获取更为准确的表征输出 - 支持需要长上下文场景的表征应用 - 提升表征的泛化性、跨领域表征适配能力增强 - 可灵活用于支持各类跨模态、跨domain的表征匹配任务
当前大模型(LLMs/MLLMs)在长对话和复杂任务链中面临上下文窗口限制和遗忘问题。尽管扩大上下文长度有所帮助,但其计算和推理成本高昂,且难以实现真正意义上的终身学习和经验累积。另一方面,现有模型在交互中往往缺乏个性化的体验,无法有效地捕捉、存储和召回与特定用户、特定场景相关的多模态经验。为了使大模型具备像人类一样从持续交互中学习、积累和灵活调度的能力,并实现从通用助手到私人智能伙伴的跃升,亟需构建一个高效、多层次、时间敏感的多模态记忆系统。这不仅能突破输入长度限制,还能通过跨模态信息的整合和知识的结构化,大幅提升模型在复杂场景下的鲁棒性、泛化能力和自我进化能力。 大模型多模态记忆增强研究项目,团队在多个方向上进行探索,若你对以下一个或多个课题感兴趣均欢迎投递: 1. 多层次记忆的构建与管理 2. 多模态记忆的嵌入与召回 3. 时间敏感的记忆调度策略 4. 记忆智能体(Memory Agent)的构建