logo of tongyi

通义研究型实习生-多模态上下文中的音频生成技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、扎实的代码能力,优良的编程风格,熟悉PytorchTensorFlow等常用的深度学习框架,能够从基础的神经网络层构建较为复杂的模型结构,具备深度神经网络的设计、开发、调试能力,掌握Python、Shell等常用编程语言。
2、对语音和音频信号有比较深入的认识,清楚基频、音色等概念对应的物理特性,熟悉常见的多模态大模型和音频生成框架,了解前沿技术动态。
3、优良的沟通表达能力、团队…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于音频生成大模型的研究、探索和开发,具体职责包括:
1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。
2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。
3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。
4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。
5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。
包括英文材料
PyTorch+
TensorFlow+
深度学习+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

多模态大模型技术(large multimodal models,LMM)是整个学术界和工业界的研究热点,但当前的主流技术方案在面对复杂的自然图像时,细粒度理解能力仍存在明显缺陷,大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题,从而提升多模态大模型的视觉能力,推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向:(1)细粒度图文对齐学习技术(Fine-grained image-text alignment);(2)多模态上下文学习技术(Multi-modal in-context learning);(3)多模态代理技术(Multi-modal agents)。

更新于 2024-07-12杭州
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。

上海|杭州
logo of antgroup
实习研究型实习生

研究领域: 多媒体 项目简介: 在支付宝平台上,存在着海量的帖子、文章、评论、商品信息、社群内容、以及其他各种形式的数字化内容,如何有效地对这些内容进行压缩和表示,是提升信息处理效率和赋能下游应用的关键。现有内容表征方法面临以下挑战: 1. 表征效率低下: 传统方法往往难以有效处理海量内容数据,表征效率较低,计算成本高昂。 2. 表征能力不足: 难以有效捕捉内容中的关键语义信息和上下文关联,表征能力有限,难以满足复杂应用的需求。 3. 通用性差: 现有方法往往针对特定类型或特定模态的内容,通用性较差,难以适应多样化的应用场景。 计划研发研发一种通用和灵活的基于大模型架构的内容表征引擎,能够对海量、多模态内容进行高效压缩和精准表征,为下游应用提供统一、高效的信息处理基础。 - 助力内容认知和理解场景获取更为准确的表征输出 - 支持需要长上下文场景的表征应用 - 提升表征的泛化性、跨领域表征适配能力增强 - 可灵活用于支持各类跨模态、跨domain的表征匹配任务

上海
logo of tongyi
实习通义研究型实习生

随着大语言模型(如ChatGPT等)的广泛应用,各行业对个性化回复的需求日益增长。个性化回复不仅能提升用户体验,还能增强模型在特定领域的实用性和准确性,但个性化回复的实用性和效果仍存在优化空间。本课题旨在探讨如何利用大语言模型实现个性化回复,满足不同行业及用户的特定需求。通过对用户输入上下文和历史对话的深度分析,模型将能够生成更具针对性和相关性的回复,从而提高用户满意度和互动有效性,我们希望在大模型个性化回复的研究中解决以下技术问题: 1. 用户行为数据的挖掘与建模:研究如何有效地收集和分析用户的历史交互记录、偏好设置等信息,以实现更精准的个性化推荐和回复策略。 2. 多轮对话的上下文理解:提高模型在多轮对话中对于上下文信息的理解能力,确保模型能够根据先前的对话内容生成更连贯、相关的回应。 3. 情感分析与情感适应:探索如何利用情感识别技术,使模型能够根据用户的情绪状态调整回复的语气和内容,以提升用户的满意度和对话的自然性。 4. 实时反馈机制:研究如何快速获取用户对模型回复的反馈,并将其融入模型的学习过程中,从而在交互中不断优化个性化表现。 5. 多模态的能力:扩展模型的感知方式,在文本模态的基础上,支持图像、音频等多种模态,从跨模态数据中抽取用户的兴趣,提升用户体验。

更新于 2024-11-04北京|杭州