通义音频基础大模型算法工程师

校招全职通义2026届秋季校园招聘2025-08-07地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。
2. 有较强的代码能力，具有丰富的TTS/Codec/流ASR研究经验，具有相关数据处理经验；精通 Python 以及 Pytorch 等深度学习框架；熟悉Transformer架构以及大语言模型基础知识。
3. 善于平衡研究目标及落地实现，具备跨学科视野与协作意识，能够与工程、产品等多学科团队紧密合作，推动研究成果快速落地并产生实际影响力。
4. 关注技术影响力，具有开源开放精神，对基础模型的前沿问题有持续热情，具备独立思考能力和系统性研究思维…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation， 同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。

工作职责：
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

Python+

PyTorch+

深度学习+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

微信-基础大模型算法研究工程师

社招WXG技术

1.主导微信大模型在应用层面的技术优化，涵盖智能体（Agent）、增强检索生成（RAG）、数据合成技术，以及针对垂直场景的模型调优与性能提升； 2.结合微信生态内的场景化数据，设计高效技术解决方案，推动AI前沿技术（如多模态推理、拟人化音频生成、长文本建模）的业务落地与核心指标优化； 3.密切关注AI学术界与工业界的技术进展（如Agent协作框架、轻量化微调方法），挖掘其在微信生态中的潜在应用场景与创新价值。

更新于 2025-06-12广州

微信基础-语音大模型算法工程师

社招2年以上微信基础AI探索

1.研发具备通用能力的端到端语音大模型，包括多语种语音识别、语音合成、声纹识别、副语言信息理解等； 2.推动上述语音技术与团队内部大语言模型 (LLM) 的深度融合，参与设计和实现智能语音交互系统架构； 3.在微信AI探索业务中，基于微信场景数据提供技术解决方案，探索业界前沿技术在业务中的落地与指标优化。

更新于 2026-01-04北京

大模型算法工程师（TTS & AI音乐方向）

社招3-5年网易云音乐

1、负责将声学知识（人声和音乐）应用于文本到语音（TTS）与文本到音乐生成场景，从应用链路的各个环节提升声音质量，包括语音自然度、情绪表达、音色一致性，以及音乐的旋律优美度、节奏准确性等，以满足实际场景需求； 2、深入理解音乐结构（旋律、和声、节奏、情绪）与音频信号处理，将音乐理解相关特征引入 TTS/SVS 模型，提高音乐性、可控性与生成质量； 3、参与歌声合成（SVS）和声音克隆（VC）相关模型的研发与调优，包括音高曲线控制、韵律建模、音色迁移、多风格歌唱生成等； 4、跟进行业前沿的 TTS、歌声合成、音频生成模型技术（如 Diffusion、Flow Matching、GAN、Neural Codec、音频 LLM 等），并将其有效应用于实际业务场景； 5、构建与维护大规模音频与语音训练数据集，设计高效的数据清洗、标注、增强、去噪与特征提取流程； 6、分析与解决应用中的关键问题，如音质退化、发音错误、韵律异常、音色偏移等，并持续优化模型性能； 7、与音乐制作、产品、内容团队协作，推动模型在 AI 音乐创作、AI 歌手、AI 语音助手、语音互动等场景的落地，并根据反馈持续迭代。

更新于 2026-01-13杭州

企业微信-多模态大模型算法工程师 -音频方向

社招3年以上企业微信SaaS

1.负责企业微信音频 AI 相关算法的研究与落地，包括但不限于语音识别（ASR）、语音合成（TTS）、声纹识别、音色转换等方向； 2.负责热词定制、领域自适应、说话人分离等场景化能力的算法设计与优化； 3.探索音频大模型在企业办公场景的创新应用，推动模型训练、微调及端侧部署落地； 4.跟进语音/音频领域前沿技术进展（Whisper、SpeechGPT 等），持续提升核心指标与用户体验； 5.与客户端、后台团队协作，完成算法从原型验证到工程化落地的全链路交付。

更新于 2026-03-31成都