logo of antgroup

蚂蚁金服研究型实习生-语音端到端交互算法研究

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  实时语音交互在大模型应用落地中对于提升用户对话体验,提升用户留存(豆包app加入语音对话后留存率提升明显)具有重要作用;在AI硬件领域(AI眼镜、戒指等),实时语音交互是直接的、天然的交互方式,且对语音理解的准确率、语音生成的自然度、对话准确率、交互响应速度都有较高的要求
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
相关职位

logo of alibaba
实习淘天集团研究型实

1. 探索语音大模型,包括语音合成、音色克隆、端到端合成、情感化语音合成等技术,实现细粒度控制的语音合成; 2. 参与全双工多模态交互系统研发; 3. 将以上技术落地到淘天业务,考虑模型性能与效率。

更新于 2025-08-14
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 原生多模态大模型中的实时语音交互相对传统的端到端交付在对话延迟、模态融合等带来能力提升,但是语音多模态对话中的情感的识别和表达还没有形成完善方案,同时工具调用等能力也需要单独进行加训、提升。

logo of tongyi
实习通义研究型实习生

多语言语音交互以其直观便捷的特性,在同声传译、跨国沟通及多语言辅助工具等领域展现出超越文本的自然互动优势。语音的独特价值在于它蕴含情感、语调、环境背景乃至说话者的性别与方言信息,这些额外维度极大丰富了信息内容。OpenAI的GPT4o及Google的Astra等前沿成果,彰显了卓越的多语言语音助手性能,震撼业界。我们拟探索多语言文本语音对齐技术,构建多语言、低延迟、可控的多语言同声传译翻译系统。

更新于 2024-11-14
logo of tongyi
实习通义研究型实习生

以ChatGPT为开端的语义大模型的解锁,激起了大模型的热潮。而在Chat这类交互体系下,口语语言理解是其下一个重要的技术分支;例如 交互数字人 场景下,Agent如何接收并理解语音转写的用户输入,进行思考、推理并生成符合对话场景的回复用于下游语音合成模型播报。同时,国外近期推出的GPT4o、Gemini-Pro等演示中都展示端到端低时延、自然度高的多模态交互系统。 本项目主要围绕 语音语义大模型 在语音对话场景的应用展开,探索 如何达到低时延的多模态交互,包括 语音语义联合建模、端到端全双工交互、高表现力的口语对话 方向

更新于 2024-08-13