千问千问C端事业群-音频多模态理解算法专家-杭州/北京/上海

社招全职2年以上技术类-算法2026-04-02地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、信号处理、数学等相关专业硕士/博士学位，3 年以上相关工作经验；
2. 在语音识别、音乐理解、音频分类、声学事件检测或多模态理解领域有深入研究，具备大规模数据训练经验；
3. 熟练掌握 PyTorch/Dee…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责音频多模态理解大模型的研发，包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地；
2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向；
3. 跟踪并落地领域内前沿论文，保持技术方案的领先性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

语音识别+

PyTorch+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-音频多模态理解算法专家-杭州/北京/上海

社招2年以上技术类-算法

1. 负责音频多模态理解大模型的研发，包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地； 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向； 3. 跟踪并落地领域内前沿论文，保持技术方案的领先性。

更新于 2026-04-02北京|杭州|上海

音频多模态大模型数据实习生-Seed大模型人才实习

实习A24946

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。 Seed 团队在 AI 领域拥有长期愿景与决心，团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE 等超过 50 个应用场景，并通过火山引擎开放给企业客户。第三方数据显示，豆包 App 用户量在中国市场排名第一，豆包大模型日均 Token 调用量行业领先。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台，通过数据驱动模型生产，支撑字节跳动智能语音相关业务算法生产与高效迭代； 2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与前沿模型研究中数据解决方案的设计、开发和维护； 3、持续提升平台数据生产效率、易用性、降低算法使用成本，探索业界前沿的多模态数据处理相关技术，设计并实现到数据平台中。

更新于 2026-03-30北京

音频多模态推理实习生-Seed大模型人才实习

实习A58356

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。 Seed 团队在 AI 领域拥有长期愿景与决心，团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE 等超过 50 个应用场景，并通过火山引擎开放给企业客户。第三方数据显示，豆包 App 用户量在中国市场排名第一，豆包大模型日均 Token 调用量行业领先。 1、负责音视频多模态场景大模型推理的性能优化，开发和优化多模态场景的推理系统，确保离在线推理性能达到业界领先水平； 2、与算法同学深度合作，开展算法与训推系统的联合深度优化，支撑部门前沿技术的探索及落地； 3、负责机器学习系统前瞻技术的调研与引入，持续提升部门关键技术竞争力，涵盖高性能推理框架、模型压缩等方向。

更新于 2026-03-30北京

千问C端事业群-音频多模态生成算法专家-杭州/北京/上海

社招2年以上技术类-算法

1. 负责音频多模态生成大模型的研发，包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地； 2. 研发基于扩散模型（Diffusion Models）或自回归模型（AR）的音频生成算法； 3. 研究音频表征、强化学习或语音端到端等技术方向。

更新于 2026-04-02北京|杭州|上海