阿里巴巴算法工程师-语音多模态（T-Star Lab日常实习生）

实习兼职淘天集团T-Star日常实习生2026-01-27地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机、信号处理、人工智能、语言学等相关专业，硕士及以上学历；
2、 熟悉常见的TTS架构，对韵律建模、音色克隆、情感控制有深刻理解；
3、 熟悉主流 ASR 架构及语义理解算法，有 Speech-LLM研发背景；
4、 熟悉 VAD、音频降噪、回声消除等前端技术，对全双工交互、流式语音处理有实践经验；
5、具备良好的工程与架构能力： 精通 …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

如果你，期望在阿里巴巴亿级用户生态中，定义下一代数字人的“灵魂”与“听觉”，打造具备极致情感表现力和深度理解能力的智能语音交互系统；
如果你，期望探索高表现力语音合成的前沿，突破传统韵律限制，研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术，让数字人的声音不再冷冰冰，而是拥有细腻的情绪起伏和呼吸感；
如果你，期望攻克语音多模态理解的核心挑战，不再局限于单一的文本转译，而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气，实现对用户深层次语义和情绪的精准捕捉；
如果你，期望挑战1v1全双工实时对话的技术难题，研发低延迟的端到端语音到语音生成架构，攻克打断机制、交互反馈等难题，让数字人具备如同真人般自然、流畅的对答体验；
如果你，期望深入研究多模态对齐与融合，将语音特征与视觉表情、文本语义深度绑定，构建“音-意-形”高度统一的数字人交互大脑，解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。

加入我们，你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能，开启数字人交互的新纪元！


研究背景：目前的数字人交互大多是“对讲机”模式（用户说完 -> 系统处理 -> 系统回答），存在明显的延迟和僵硬感。要实现真正的1v1自然对话，需要数字人具备实时监听、情感对齐和即时反馈的能力。
研究课题：
1、流式情感感知： 研究如何在用户说话过程中，实时通过流式音频提取情绪、语气和意图，而非等待整句话结束。
2、打断（Barge-in）与反馈机制： 研发鲁棒的打断检测算法，并让数字人学会自发性口语，提升交互真实感。
3、预测性生成： 探索如何根据用户已说出的前半句内容，提前初始化 TTS 渲染状态，实现“边听边想边说”的流式效果。

成长支持&成长空间：
1、亲手参与从 0 到 1 定义数字人实时交互标准，体验技术改变数亿人购物方式的成就感。
2、 算力自由： 远离“算力焦虑”，专注于算法创新。
3、海量高质数据： 拥有业界独有的、极其丰富的多模态商业场景数据，为研究零样本学习、多模态对齐等前沿课题提供土壤。
4、 鼓励顶会产出： 团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

语音合成+

语音识别+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

算法工程师-语音多模态大模型

实习阿里巴巴2027

1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发； 2. 负责语音信号处理的相关算法研究和开发，包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等； 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发； 4. 语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2026-03-22北京|杭州|上海

通义实验室-语音多模态大模型算法工程师-通义百聆

社招3年以上技术类-算法

1. 语音多模态大模型算法创新：面向下一代语音多模态通用大模型，探索并定义统一的技术范式，开展文本、语音等多模态的联合建模与协同推理研究，系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战，持续推动模型能力与泛化上限。 2. 场景驱动的算法创新：紧密结合真实业务场景（如智能交互、内容生成、跨模态检索等），设计并优化多模态大模型架构与训练策略，在保证效果领先的同时，持续提升模型效率、稳定性与鲁棒性，推动技术在复杂场景中的规模化落地。 3. 前沿应用技术探索：跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究，快速完成技术验证与实验迭代，探索新建模范式与训练范式，持续刷新相关任务的 SOTA。"

更新于 2026-03-19北京|杭州

语音多模态大模型算法工程师

社招A31384

1、负责语音多模态模型算法方案研发、迭代和落地应用 2、负责大规模、多模态数据集的构建、清洗、标注和管理 3、持续跟踪国际前沿的语音、多模态及大模型技术动态

更新于 2025-11-25北京

多模态算法工程师（音乐方向）-Data语音

社招A105684A

1、负责音乐方向多模态算法研发，参与下一代多模态大模型技术搭建与迭代，聚焦音频、语音、音乐、文本跨模态融合技术探索； 2、推进算法能力落地业务场景，承担音乐或音频的生成、理解、分析等相关算法研发，结合语音、NLP能力完成多模态业务链路搭建； 3、跟踪音频、语音、音乐、多模态领域前沿技术，开展技术调研、方案选型与技术创新，推动前沿能力落地落地； 4、配合业务团队对接豆包相关业务，独立负责模块攻坚，统筹算法方案设计、实验验证与线上交付； 5、参与算法工程基建建设，结合模型推理、训练链路优化需求，协同完成算法工程化落地。

更新于 2026-06-08上海