通义通义实验室-语音大模型算法工程师-通义千问

社招全职1年以上技术类-算法2025-10-16地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、机器学习等相关专业，博士及硕士优先。
2. 较强的代码能力，具有丰富的 TTS / Codec / 流ASR 研究经验，具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现，且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力，具有开源开放精神。

加分项：
1. 曾发表顶级会议论…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation， 同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。

工作职责：
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

Python+

PyTorch+

深度学习+

Transformer+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

音频基础大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。工作职责： 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07北京|杭州|上海

通义实验室-算法专家-Qwen基座音乐生成

社招3年以上技术类-算法

团队介绍通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。职位描述: 参与Qwen3-Music项目研究以及开源，构建世界级的影响力项目。团队致力于打造全球最具影响力的音频模型，曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。

更新于 2025-12-04北京|杭州

语音多模态大模型算法工程师

校招通义2026届秋

近年来，以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展，展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态，对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴，有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景，以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。我们致力于通用人工智能（AGI）方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能（AGI/ASI）前沿探索、多模态建模与智能交互系统有浓厚兴趣，并渴望深入参与下一代多模态通用模型的研发与演进，欢迎加入我们，共同定义未来AI的能力边界，牵引千行百业在智能时代的深度变革。工作职责 1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。 2. 负责语音信号处理的相关算法研究和开发，包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 4. 语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2025-08-07北京|杭州

LLM-自然语言处理算法工程师

校招通义2026届秋

近年来，以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展，展现出前所未有的技术潜力与广泛的应用前景。我们致力于面向通用人工智能（AGI)的前沿探索与产业落地创新。一方面，在迈向AGI的长期路径中，随着大语言模型能力的持续进化，多模态感知、融合与推理等关键问题日益凸显，成为构建通用智能系统的核心挑战；另一方面，围绕典型行业场景如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案，也成为当前研究与工程实践的重点方向。如果你对生成式AI、智能交互、智能软件工程，智能文档处理，数据挖掘，多语言内容的理解和生成，跨模态检索与理解，多模态智能体GUI Agent以及法律金融等方向的AI应用算法研发有浓厚兴趣，或者对于大模型应用落地有浓厚兴趣，欢迎加入我们，共同定义未来AI的能力边界，牵引千行百业在智能时代的深度变革。 1. 大语言模型算法创新：定义下一代大语言模型技术范式，实现文本、代码，语音、视觉等多模态信息的联合建模，探寻和解决对齐、推理、Agentic等方面的核心挑战，不断追寻通用大模型的效果上限。 2. 场景驱动的算法创新：结合上述业务场景，设计并优化大模型架构，研发低成本高效应用算法，提升效果、效率与鲁棒性。 3. 端到端技术闭环：从数据构建、模型训练、评测到部署，主导技术方案落地，通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索：紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展，定义技术新范式，快速实验并迭代创新方案，拉升相关模型在学术领域和应用场景的SOTA。

更新于 2025-08-07北京|杭州