万兴科技音频大模型算法工程师

社招全职2024-08-02地点：长沙状态：招聘

扫码手机上打开

任职要求

任职资格：1、硕士及以上，计算机、通信、信号处理等相关专业；2、熟悉数字信号处理相关理论，擅长对算法实现和优化；3、有音频编解码器或音频信号处理，多媒体通信等相关开发经…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位职责：1、负责音视频产品音频技术开发，算法实现和优化；2、移动平台、跨平台代码移植和算法优化；3、音频前后处理算法如噪声抑制(NS)、增益控制(AGC)、人声增强、回音消除(AEC)等；4、大规模语音及歌声素材的分析处理；5、AI音乐生成、声音克隆等前沿技术开发和预研。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

还有更多 •••

登录查看完整学习资料

相关职位

音频大模型数据算法工程师-实习生

实习

岗位职责： 1. 参与⾳频理解的算法调研、落地应⽤、效果调优； 2. 负责⾳频理解技术在业务场景的适配和落地； 3. 将合适的⼯作成果最终形成论⽂发表；

更新于 2025-01-06上海

音频基础大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。工作职责： 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07北京|杭州|上海

混元大模型语音算法工程师（北京/上海）

社招3年以上AI技术

1.负责语音/音频大模型研发，包括语音对话（语音交互/音视频对话）、音频理解（ASR/音频caption）、音频生成（TTS/视频配音）等模型研发； 2.负责语音/音频大模型的预训练、后训练、强化学习（文本和音频强化）相关的数据和算法工作； 3.负责语音对话/音频理解/音频生成的模型开源以及产品落地（比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化）。

更新于 2025-12-12深圳

顶尖应届-语音生成大模型算法工程师-大模型

校招

1. 聚焦语音/音频生成大模型技术研究，涵盖多模态融合，提升长序列建模能力与实时性； 2. 研发风格与情感可控技术，构建语义-时序-声学等多级可控接口，支持音色迁移与交互式编辑； 3. 落地助手、无障碍等小米应用场景，发表顶会论文一篇以上，申请专利两项以上。【课题名称】语音生成大模型研究与应用【课题内容】研究语音或音频生成与编辑大模型相关技术，优化生成效果及可控性，平衡效率与效果，探索前沿的声音生成技术方案等。

更新于 2025-06-25北京