通义研究型实习生-音频表征压缩与LLM稳定生成建模

实习兼职通义研究型实习生2024-10-11地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.发表过至少一篇高水平文章，包括ICML, NeurlPS, InterS…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

目前，语音多模态LLM研究已经进入深水期，基于语音离散表征的语音端到端对话基础技术路线已经确定。为了进一步让端到端语音对话技术性能提升并且达到商用水平，必须进一步研究如何提升表征压缩的性能以及如何让LLM能够稳定的建模多层码本。因此，需要进一步在相关技术方向上进行探索。
该职位主要解决
技术问题1: 如何高效的压缩音频信号，得到高效的音频表征，能够可解耦的建模各种音频信号。
技术问题2: 如何让LLM稳定可靠的建模单说话人的语音信号，怎么克服Corner Case达到稳定建模。
技术问题3: 如何让LLM进一步提高对TTS生成的表现力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

ICML+

相关职位

研究型实习生-低成本人物全模态推理

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2025-04-25杭州

研究型实习生-多模态大模型技术探索

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术，实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法，支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解，包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法，设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式，为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州

研究型实习生-多模态音频大模型生成效率优化与可控合成技术研究

实习通义研究型实习生

随着多模态音频大模型（如GPT-4o）的突破性发展，语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡（如思维链机制引入导致推理时延显著增加）及可控性-鲁棒性不足（如时序同步性差、跨模态数据依赖性强）的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术，重点攻克Test-Time-Scaling曲线建模（动态CoT启动、关键词压缩、隐状态连续表征）、扩散-语言模型融合架构设计、音视频统一生成等核心问题，旨在突破长序列推理效率瓶颈并增强跨模态对齐能力，推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

更新于 2025-04-17杭州|上海

研究型实习生-音频理解大模型

实习通义研究型实习生

1. 参与设计和实现统一的音频理解架构，解决语音识别、声学事件检测、说话人分析、情感理解等任务间的壁垒，促进多任务知识共享与协同优化； 2. 研究并开发针对长时序音频的有效上下文建模方法，提升长程语义一致性与事件定位精度； 3. 提升模型在复杂现实场景下的鲁棒性，如高噪声、低信噪比、多说话人重叠等情况； 4. 实现跨音频类型的通用语义表征，支持零样本或少样本迁移至新任务或领域； 5. 优化模型推理效率与内存占用，支持端侧部署与低延迟实时理解。

更新于 2025-11-21杭州