通义通义实验室-语音大模型算法工程师-Qwen

社招全职1年以上技术类-算法2026-03-24地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、机器学习等相关专业，博士及硕士优先。
2. 较强的代码能力，具有丰富的 TTS / Codec / 流ASR 研究经验，具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现，且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力，具有开源开放精神。

加分项：
1. 曾发表顶级…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation， 同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。

工作职责：
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

语音合成+

语音识别+

Python+

PyTorch+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

淘宝闪购-大模型&算法工程专家/架构师-物流-北京

社招5年以上技术类-开发

1、主导多模态大模型（eg: deepseek、lama、qwen）的工程化落地，设计数据清洗-训练-推理全链路优化方案‌； 2、构建可复用的工程模块（如自动标注系统、场景仿真工具、测评平台），支持算法快速迭代‌； 3、攻坚大模型系统优化技术（模型压缩、硬件加速），让大模型能顺利落地各个业务场景；

更新于 2026-06-05北京

大模型应用算法工程师（智能客服方向）

社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发，包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践，特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调，使其能够高效、准确地调用内部和外部工具，扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景，抽象业务所需的大模型基础能力深度优化，推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作，推动算法模型的工程化落地，包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术，结合业务需求进行预研和技术储备，保持团队的技术竞争力。

更新于 2025-07-21北京|上海

大模型数据工程师(J250328013)

社招技术

1. 构建端到端的网页文本内容提取&分析系统，针对网络数据复杂性，从系统效率和模型效果角度持续优化网页内容提取算法，迭代线上生产标准； 2. 设计预训练数据全局质量优化和治理方案，优化数据采样策略、隐私保护和安全合规策略，提升基座模型训练效率和效果； 3. 深度参与和实现多模态（图文混合、语音等）交错数据处理pipline，通过数据分析和配比实验等手段，提升多模态数据质量和多样性，支撑多模态大模型的数据需求； 4. 跟进大模型数据领域前沿技术（如Data Influence、Curriculum Learning、数据合成、基于大模型的数据预处理等），推动数据驱动的模型性能突破； 5. 深度参与千亿级网页的大规模处理和万亿级token数据生产，通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率；

更新于 2025-06-17北京

语音交互算法工程师（精英实习）

实习人工智能

1. 深度参与雷火各旗舰游戏，实时语音交互、语音内容生产、语音创新玩法等场景研发和落地，为玩家创造崭新的互动娱乐体验； 2. 跟踪语音前沿技术，将最新的语音生成大模型、端到端语音大模型等先进技术落地至业务中； 3. 参与语音算法方案的整个生命周期，包括方案设计、算法实现、数据工程、线上服务等全流程。

杭州