蚂蚁金服研究型实习生-语音端到端交互算法研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 实时语音交互在大模型应用落地中对于提升用户对话体验,提升用户留存(豆包app加入语音对话后留存率提升明显)具有重要作用;在AI硬件领域(AI眼镜、戒指等),实时语音交互是直接的、天然的交互方式,且对语音理解的准确率、语音生成的自然度、对话准确率、交互响应速度都有较高的要求
1. 探索语音大模型,包括语音合成、音色克隆、端到端合成、情感化语音合成等技术,实现细粒度控制的语音合成; 2. 参与全双工多模态交互系统研发; 3. 将以上技术落地到淘天业务,考虑模型性能与效率。
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg)https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 结合业务场景,探索跨模态(文字/语音/视觉)混合训练的最佳实践,探索基于speech language model的后训练(SFT+RL)技术,持续优化交互响应、交互内容,结合规划agent/工具调用agent,持续提升voice agent的交互体验,从而反馈到高德agent的整体能力; 探索流式全双工对话中,更加高效且合理的模型架构,包括但不限于COT Reasoning in streaming full-duplex等; 海量的语音数据,尤其是对话数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量;
研究领域: 人工智能 项目简介: 原生多模态大模型中的实时语音交互相对传统的端到端交付在对话延迟、模态融合等带来能力提升,但是语音多模态对话中的情感的识别和表达还没有形成完善方案,同时工具调用等能力也需要单独进行加训、提升。