智能互联智能互联-语音识别算法工程师-杭州/上海

社招全职2年以上技术类-算法2025-11-07地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、数学、统计学相关专业，硕士及以上学历；3年及以上，或6年及以上语音算法经验，对声学模型、语言模型、解码策略等掌握透彻，熟悉领域前沿技术，有对话系统建设经验者更佳。具备语音方向大模型经验者更佳…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责产品中语音部分的算法能力建设和维护，提升语音识别在各场景的准确率，并结合语音语义研究交互判定算法，打造优秀的产品体验
2. 持续迭代算法能力，配合业务节奏，在家庭泛娱乐场景、多国语言支持、多方言支持、中外语种混杂识别、人机对话检测等方面做出优秀的效果指标
3. 分析并解决产品系统中各种badcase，总结问题共性，并落地自动化发现、自动化修复的能力
4. 独立或带领相关同学探索新方向，引入新技术新想法，以发现商业价值或提升用户体验

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

大模型+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-算法工程师-语音算法

社招3年以上技术类-算法

1、负责支付宝安全助理及智能外呼产品中的语音交互算法方案的研发，深耕 ASR/TTS 核心技术，构建高鲁棒、低延迟、安全可信的下一代语音交互算法体系。 2、关注语音算法前沿技术和发展动态，拓展算法应用场景。

更新于 2025-12-09上海|杭州

音频基础大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。工作职责： 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07北京|杭州|上海

蚂蚁国际-商服AI高级算法工程师-全球技术

社招技术类-开发

1. 参与蚂蚁国际商服平台智能客服机器人AI算法的设计与开发，能够进行商服基座大模型的持续预训练（Continuous pretrain，CP）、监督微调（SFT）、基于人类反馈的强化学习（RHLF）等技术工作，并推动其在实际业务场景中的高效应用与落地。 2. 参与蚂蚁国际商服平台智能坐席助手AI算法的设计与开发，在坐席服务的前中后阶段，通过文本总结，观点挖掘，模拟对话、语义搜索、话术推荐、智能质检等AI技术，辅助提升坐席服务人员的服务半径与时效。

更新于 2025-06-03上海|杭州

技术研究-多媒体处理方向

校招青云计划-实习生

作为多媒体方向的研究工程师，你可以： 1、负责口语语言理解、用户意图理解、对话模型、人机对话、深度学习、深度强化学习等算法研究和开发； 2、负责语音识别/合成方向的技术研发工作，包括但不限于语音前端处理、声学模型/语言模型的建立、语言解码、语音合成(TTS)等； 3、负责针对对话交互的领域知识图谱建设和智能问答； 4、负责下一代视频编解码标准研究，负责视频编解码算法实现及优化； 5、负责语音识别/合成方向、前沿视频编码技术和前沿视频处理技术等问题的探索与研究，结合未来实际应用场景，提供全面的技术解决方案。

深圳|北京|上海