logo of antgroup

蚂蚁金服研究型实习生-语音交互中的情感能力、工具调用能力研究

实习兼职研究型实习生地点:杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  原生多模态大模型中的实时语音交互相对传统的端到端交付在对话延迟、模态融合等带来能力提升,但是语音多模态对话中的情感的识别和表达还没有形成完善方案,同时工具调用等能力也需要单独进行加训、提升。
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
Go+
相关职位

logo of tongyi
实习通义研究型实习生

随着大语言模型的快速发展,3D虚拟数字人实现自然对话与情感陪伴已成为可能。本项目致力于探索端到端的语音与数字人表情动作同步生成方法,旨在提升3D数字人的交互表现力与响应效率,增强其在对话过程中的真实感和自然度,推动3D数字人在多模态交互场景下的广泛应用。

更新于 2025-05-16
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-23
logo of tongyi
实习通义研究型实习生

多语言语音交互以其直观便捷的特性,在同声传译、跨国沟通及多语言辅助工具等领域展现出超越文本的自然互动优势。语音的独特价值在于它蕴含情感、语调、环境背景乃至说话者的性别与方言信息,这些额外维度极大丰富了信息内容。OpenAI的GPT4o及Google的Astra等前沿成果,彰显了卓越的多语言语音助手性能,震撼业界。我们拟探索多语言文本语音对齐技术,构建多语言、低延迟、可控的多语言同声传译翻译系统。

更新于 2024-11-14
logo of antgroup
实习研究型实习生

研究领域: 多媒体 项目简介: 在AGI产品日益普及的当下,语音作为用户与智能系统之间的重要交互方式,正被广泛接受和应用。为了提供更为自然流畅的语音交流体验,我们需要聚焦以下关键问题: 1. 语言特性:包括韵律、情感等语音习惯的模拟,使得合成语音更接近于真实人类的表达,确保对话的流畅性和可控性。 2. 实时响应:力求在极短的响应时间内(毫秒级)生成语音,以满足用户对于实时互动的需求。 因此,本项目旨在研发高可信度的语音合成方案,并将其成功应用于支小宝等业务场景中。研究方向涵盖但不限于情感可控合成、副语言合成、韵律控制、流式生成等多个技术领域。