腾讯语音与音频理解方向研究员（大模型与多模态方向）

社招全职TEG技术2025-06-24地点：北京状态：招聘

扫码手机上打开

任职要求

1.计算机、电子工程、人工智能、语言学或相关领域博士，或硕士加多年相关工作经验；
2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构；
3.熟练掌握 语音识别，语音合成，语音翻译等 一项多多项系统开发流程，具有多语言、多任务或端到端系统经验者优先；
4.对以下方向具备深入研究或实践经验者优先：；
5.语音表征预训练（如 HuBE…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系，以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队，围绕以下关键研究任务开展工作：；
2.研发具备通用能力的端到端语音大模型，包括多语言语音识别、语音翻译、语音合成，副语言信息理解，音频理解 等；
3.推进 语音表征学习 与 语音编码/解码 架构研究，构建适用于多任务、多模态的统一声学表征；
4.探索音频和语音在多模态大模型中的表征对齐与融合机制，与图像、文本联合建模；
5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

语音识别+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

语音与音频理解方向研究员（大模型与多模态方向）

社招TEG技术

1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系，以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队，围绕以下关键研究任务开展工作：； 2.研发具备通用能力的端到端语音大模型，包括多语言语音识别、语音翻译、语音合成，副语言信息理解，音频理解等； 3.推进语音表征学习与语音编码/解码架构研究，构建适用于多任务、多模态的统一声学表征； 4.探索音频和语音在多模态大模型中的表征对齐与融合机制，与图像、文本联合建模； 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。

更新于 2025-06-24深圳

语音与音频理解方向研究员（语音生成方向）

社招TEG技术

1.跟踪业界最新的语音生成算法研究，探索下一代语音、音频生成新范式，拓展语音生成边界能力； 2.探索多模态语音大模型的前沿技术，结合文本、语音、视觉等技术提升语音交互体验； 3.负责语音大模型的技术研发工作，推动模型性能提升与创新应用。

更新于 2025-06-24深圳

混元语音与音频理解方向研究员（语音生成方向）（北京/深圳/上海）

社招2年以上混元助手-其他技

更新于 2025-11-17北京

通义实验室-语音大模型算法工程师-通义千问

社招1年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。工作职责： 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2026-01-20北京|杭州