通义研究型实习生-音频表征压缩与LLM稳定生成建模
任职要求
1.发表过至少一篇高水平文章,包括ICML, NeurlPS, InterSpeech等。
2.具有较强的TTS背景。
3.具有较好的编程能力和沟通能力。
工作职责
目前,语音多模态LLM研究已经进入深水期,基于语音离散表征的语音端到端对话基础技术路线已经确定。为了进一步让端到端语音对话技术性能提升并且达到商用水平,必须进一步研究如何提升表征压缩的性能以及如何让LLM能够稳定的建模多层码本。因此,需要进一步在相关技术方向上进行探索。 该职位主要解决 技术问题1: 如何高效的压缩音频信号,得到高效的音频表征,能够可解耦的建模各种音频信号。 技术问题2: 如何让LLM稳定可靠的建模单说话人的语音信号,怎么克服Corner Case达到稳定建模。 技术问题3: 如何让LLM进一步提高对TTS生成的表现力。
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
随着多模态音频大模型(如GPT-4o)的突破性发展,语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡(如思维链机制引入导致推理时延显著增加)及可控性-鲁棒性不足(如时序同步性差、跨模态数据依赖性强)的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术,重点攻克Test-Time-Scaling曲线建模(动态CoT启动、关键词压缩、隐状态连续表征)、扩散-语言模型融合架构设计、音视频统一生成等核心问题,旨在突破长序列推理效率瓶颈并增强跨模态对齐能力,推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。