千问千问C端事业群-音频多模态生成算法专家-杭州/北京/上海

社招全职2年以上技术类-算法2026-04-02地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、信号处理、数学等相关专业硕士/博士学位，3 年以上相关工作经验；
2. 在语音合成、音乐生成、音效生成或语音端到端等领域有深入研究，具备大规模数据训练经验；
3. 熟练掌握 PyTorch/DeepSp…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责音频多模态生成大模型的研发，包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地；
2. 研发基于扩散模型（Diffusion Models）或自回归模型（AR）的音频生成算法；
3. 研究音频表征、强化学习或语音端到端等技术方向。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

语音合成+

PyTorch+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-音频多模态生成算法专家-杭州/北京/上海

社招2年以上技术类-算法

1. 负责音频多模态生成大模型的研发，包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地； 2. 研发基于扩散模型（Diffusion Models）或自回归模型（AR）的音频生成算法； 3. 研究音频表征、强化学习或语音端到端等技术方向。

更新于 2026-04-02北京|杭州|上海

混元多模态-统一音频生成大模型研究

校招青云计划-实习生

深圳

研究型实习生-多模态理解和生成统一模型(图像+视频+音频方向)

实习阿里巴巴研究型实

1、理解-生成融合范式：研究理解模型和生成模型的有效融合范式，例如探索Diffusion-Transformer (DiT) 和 Auto-Regressive (AR) 模型的融合与交互方式。 2、融合音频数据的统一模型：将音频数据融入现有的多模态理解和生成框架，构建更全面的多模态统一模型。 3、统一Tokenizer研究：探索适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer，提高模型的泛化能力和效率。

更新于 2026-07-28北京|杭州

音频多模态大模型数据实习生-Seed大模型人才实习

实习A24946

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。 Seed 团队在 AI 领域拥有长期愿景与决心，团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE 等超过 50 个应用场景，并通过火山引擎开放给企业客户。第三方数据显示，豆包 App 用户量在中国市场排名第一，豆包大模型日均 Token 调用量行业领先。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台，通过数据驱动模型生产，支撑字节跳动智能语音相关业务算法生产与高效迭代； 2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与前沿模型研究中数据解决方案的设计、开发和维护； 3、持续提升平台数据生产效率、易用性、降低算法使用成本，探索业界前沿的多模态数据处理相关技术，设计并实现到数据平台中。

更新于 2026-03-30北京