蚂蚁金服研究型实习生-语音端到端交互算法研究

实习兼职研究型实习生地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

研究领域：
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go
-具有上述研究领域的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  人工智能
项目简介：
  实时语音交互在大模型应用落地中对于提升用户对话体验，提升用户留存(豆包app加入语音对话后留存率提升明显)具有重要作用；在AI硬件领域(AI眼镜、戒指等)，实时语音交互是直接的、天然的交互方式，且对语音理解的准确率、语音生成的自然度、对话准确率、交互响应速度都有较高的要求

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-搜推智能产品-语音算法

实习淘天集团研究型实

1. 探索语音大模型，包括语音合成、音色克隆、端到端合成、情感化语音合成等技术，实现细粒度控制的语音合成； 2. 参与全双工多模态交互系统研发； 3. 将以上技术落地到淘天业务，考虑模型性能与效率。

更新于 2025-08-14北京|杭州

voice agent算法实习生

实习高德研究型实习生

团队介绍：高德语音技术部，是负责高德全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。近期部分技术（https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）具体职责：围绕voice agent/speech language model的研究工作，包括但不限于如下事项：跟进最领先的语音交互技术，包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标，鼓励撰写论文及申请专利；结合业务场景，探索跨模态（文字/语音/视觉）混合训练的最佳实践，探索基于speech language model的后训练(SFT+RL)技术，持续优化交互响应、交互内容，结合规划agent/工具调用agent，持续提升voice agent的交互体验，从而反馈到高德agent的整体能力；探索流式全双工对话中，更加高效且合理的模型架构，包括但不限于COT Reasoning in streaming full-duplex等；海量的语音数据，尤其是对话数据的处理构建：定性分析、定量评估、参与设计自动评估框架，研发 scalable 的改进方案，持续提升数据质量；

更新于 2026-02-04北京

研究型实习生-面向通用场景的智能交互语音理解大模型与鲁棒语音识别技术

实习通义研究型实习生

1.负责语音识别/语种识别/情感识别等方向的算法研究和开发； 2.负责音频理解/用户意图理解等算法研究和开发； 3.语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2026-05-20北京|杭州

研究型实习生-面向通用场景的智能交互语音翻译大模型技术

实习通义研究型实习生

1.负责端到端语音翻译方向的算法研究和开发。 2.负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 3.语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2026-05-20北京|杭州