哔哩哔哩语音大模型算法工程师

社招全职技术类2025-02-05地点：上海状态：招聘

扫码手机上打开

任职要求

1、计算机科学、人工智能等相关领域博士学历，毕业于985高校或海外知名院校；
2、拥有语音技术领域的研究或工作经验，熟悉多模态理解和生成原理，对大模型底层技术有深入理解，敢于挑战技术边界；
3、在ACM等相关编程竞赛中有突…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责语音大模型的迭代与优化，涵盖语音识别、语音翻译、语音合成、音色克隆、智能语音对话、音乐生成等通用模型或垂直领域模型的技术升级；
2、跟踪前沿技术动态，开展深入研究，并撰写和发表相关领域高水平学术论文；
3、优化强化学习在语音大模型场景中的应用，推动多模态技术的深度融合；
4、深入研究端到端语音实时交互技术，解决跨语言理解、翻译与合成的关键问题，优化语音输入到多模态输出的全链路效果。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

还有更多 •••

登录查看完整学习资料

相关职位

语音生成（TTS）算法工程师（北京/杭州均可）

社招网易有道

1. 参与语音生成类大模型技术的研发，比如语音合成、音乐生成、端到端语音对话等； 2. 改进和优化语音大模型基座，持续创新和迭代算法解决业务问题； 3. 调研并探索语音方向前沿算法，不断提升现有算法的推理效率与合成质量。

更新于 2025-12-21北京

语音多模态大模型算法工程师

社招A31384

1、负责语音多模态模型算法方案研发、迭代和落地应用 2、负责大规模、多模态数据集的构建、清洗、标注和管理 3、持续跟踪国际前沿的语音、多模态及大模型技术动态

更新于 2025-11-25北京

通义实验室-语音大模型算法工程师-通义千问

社招1年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。工作职责： 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2026-01-20北京|杭州

微信基础-语音大模型算法工程师

社招2年以上微信基础AI探索

1.研发具备通用能力的端到端语音大模型，包括多语种语音识别、语音合成、声纹识别、副语言信息理解等； 2.推动上述语音技术与团队内部大语言模型 (LLM) 的深度融合，参与设计和实现智能语音交互系统架构； 3.在微信AI探索业务中，基于微信场景数据提供技术解决方案，探索业界前沿技术在业务中的落地与指标优化。

更新于 2026-01-04北京