logo of tongyi

通义研究型实习生-音频分离与生成技术研究

实习兼职通义研究型实习生地点:新加坡状态:招聘

任职要求


1、扎实的研究和工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备算法设计开发调试能力;
2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心;
3、有在顶尖学术会议(ICASSP, Interspeech, CCF-A类会议等)上发表论文、或发表专利、或github开源方面的经验。

加分项:
1、有突出的学术背景和创新研究能力;
2、对音频分离与生成等重点场景的系统优化或前沿算法有深入务实的经验;
3、具有GPU训练和优化相关经验。

工作职责


专注于音频分离与生成中关键技术的研究、探索和开发,具体职责包括:
1、分析现有音频技术的瓶颈,探索新一代创新高效的音频分离与生成技术;
2、研发单模态或跨模态音频分离与生成相关技术,实现高质量音频生成、精确的文本-音频或跨模态对齐,以及长序列音频生成等,打造业界领先的音频分离与生成技术,建设音频基础大模型;
3、推动音频技术在音乐创作、音频生成、音频提取等领域的产业化应用。
包括英文材料
Python+
C+++
设计模式+
算法+
GitHub+
相关职位

logo of tongyi
实习通义研究型实习生

目前,语音多模态LLM研究已经进入深水期,基于语音离散表征的语音端到端对话基础技术路线已经确定。为了进一步让端到端语音对话技术性能提升并且达到商用水平,必须进一步研究如何提升表征压缩的性能以及如何让LLM能够稳定的建模多层码本。因此,需要进一步在相关技术方向上进行探索。 该职位主要解决 技术问题1: 如何高效的压缩音频信号,得到高效的音频表征,能够可解耦的建模各种音频信号。 技术问题2: 如何让LLM稳定可靠的建模单说话人的语音信号,怎么克服Corner Case达到稳定建模。 技术问题3: 如何让LLM进一步提高对TTS生成的表现力。

更新于 2024-10-11
logo of aliyun
实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07
logo of tongyi
实习通义研究型实习生

随着多模态音频大模型(如GPT-4o)的突破性发展,语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡(如思维链机制引入导致推理时延显著增加)及可控性-鲁棒性不足(如时序同步性差、跨模态数据依赖性强)的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术,重点攻克Test-Time-Scaling曲线建模(动态CoT启动、关键词压缩、隐状态连续表征)、扩散-语言模型融合架构设计、音视频统一生成等核心问题,旨在突破长序列推理效率瓶颈并增强跨模态对齐能力,推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

更新于 2025-04-17
logo of antgroup
实习研究型实习生

研究领域: 机器学习 项目简介: AIGC技术层次不穷,新的AIGC技术浪潮迅猛发展,与此同时,我们必须提升AIGC防伪检测的水平。例如:互联网上充斥着大量“以假乱真”的音视频内容,将影响正常的社会舆论趋势和人的审美美感,也伴随着一些内容安全隐患,可能对人类的价值观和道德观产生负面的影响,需要引起重视。 AIGC典型应用包括:深度伪造视频,深度伪造音频,或者部分深度伪造视频中也包含一些深度伪造的音频,本子课题重点针对音频深度伪造的检测技术。常用的音频深度伪造有逻辑攻击和物理攻击两大类,其中,物理攻击------采用变声器等录音设备进行声音转换,或录音重放等方式生成伪造语音数据;逻辑攻击------通过语音合成Text-to-Speech(TTS) ,音色转换Voice Conversion(VC)和语音克隆Voice Cloning(VC)等深度网络方法生成伪造音频。探索AIGC时代音频防伪技术,加强安全防控,防范新型未知风险。