logo of tongyi

通义研究型实习生-音频分离与生成技术研究

实习兼职通义研究型实习生地点:新加坡状态:招聘

任职要求


1、扎实的研究和工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备算法设计开发调试能力;
2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心;
3、有在顶尖学术会议(ICASSP, In…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于音频分离与生成中关键技术的研究、探索和开发,具体职责包括:
1、分析现有音频技术的瓶颈,探索新一代创新高效的音频分离与生成技术;
2、研发单模态或跨模态音频分离与生成相关技术,实现高质量音频生成、精确的文本-音频或跨模态对齐,以及长序列音频生成等,打造业界领先的音频分离与生成技术,建设音频基础大模型;
3、推动音频技术在音乐创作、音频生成、音频提取等领域的产业化应用。
包括英文材料
Python+
C+++
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

目前,语音多模态LLM研究已经进入深水期,基于语音离散表征的语音端到端对话基础技术路线已经确定。为了进一步让端到端语音对话技术性能提升并且达到商用水平,必须进一步研究如何提升表征压缩的性能以及如何让LLM能够稳定的建模多层码本。因此,需要进一步在相关技术方向上进行探索。 该职位主要解决 技术问题1: 如何高效的压缩音频信号,得到高效的音频表征,能够可解耦的建模各种音频信号。 技术问题2: 如何让LLM稳定可靠的建模单说话人的语音信号,怎么克服Corner Case达到稳定建模。 技术问题3: 如何让LLM进一步提高对TTS生成的表现力。

更新于 2024-10-11北京|杭州
logo of tongyi
实习通义研究型实习生

1. 参与设计和实现统一的音频理解架构,解决语音识别、声学事件检测、说话人分析、情感理解等任务间的壁垒,促进多任务知识共享与协同优化; 2. 研究并开发针对长时序音频的有效上下文建模方法,提升长程语义一致性与事件定位精度; 3. 提升模型在复杂现实场景下的鲁棒性,如高噪声、低信噪比、多说话人重叠等情况; 4. 实现跨音频类型的通用语义表征,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率与内存占用,支持端侧部署与低延迟实时理解。

更新于 2025-11-21杭州
logo of aliyun
实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海
logo of tongyi
实习通义研究型实习生

随着多模态音频大模型(如GPT-4o)的突破性发展,语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡(如思维链机制引入导致推理时延显著增加)及可控性-鲁棒性不足(如时序同步性差、跨模态数据依赖性强)的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术,重点攻克Test-Time-Scaling曲线建模(动态CoT启动、关键词压缩、隐状态连续表征)、扩散-语言模型融合架构设计、音视频统一生成等核心问题,旨在突破长序列推理效率瓶颈并增强跨模态对齐能力,推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

更新于 2025-04-17杭州|上海