logo of alibaba

阿里巴巴算法工程师-语音多模态大模型

实习兼职淘天集团2026届春季实习生招聘地点:杭州状态:招聘

任职要求


【必备项】
1、计算机科学、人工智能、语音处理、机器学习或相关领域的硕士或博士学位;
2、至少2年在语音、自然语言、图像生成、音乐生成、语音翻译、数字人或相关领域的研究研发经验;
3、具备出色的编程能力,熟练掌握Pytorch深度学习框架和Python编程语言;
4、在顶级领域会议(如NeurIPS、ICML、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


如果你,期望参与淘天集团语音多模态大模型技术研发,推动数字人AI智能对话、语音自然交互等技术在淘宝Vision和手机淘宝等亿级用户场景的产品化落地;
如果你,期望突破语音模态与语言模型的融合边界,构建新一代Speech-to-Speech多模态基座模型,持续跟踪大模型领域国际前沿技术,通过产学研合作打造行业领先的对话交互系统;
如果你,期待与顶尖算法团队并肩作战,在开放创新的技术氛围中与自驱力强、专业过硬、追求极致的技术伙伴共同开拓多模态交互新范式;
那还在等待什么,赶紧加入我们吧!
包括英文材料
机器学习+
学历+
PyTorch+
深度学习+
Python+
还有更多 •••
相关职位

logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统; 如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感; 如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉; 如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验; 如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。 加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元! 研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。 研究课题: 1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。 2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语,提升交互真实感。 3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。 成长支持&成长空间: 1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。 2、 算力自由: 远离“算力焦虑”,专注于算法创新。 3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、 鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。

更新于 2026-01-27北京|杭州
logo of bytedance
社招A259606

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-03-28上海
logo of tongyi
社招3年以上技术类-算法

1. 语音多模态大模型算法创新:面向下一代语音多模态通用大模型,探索并定义统一的技术范式,开展文本、语音等多模态的联合建模与协同推理研究,系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战,持续推动模型能力与泛化上限。 2. 场景驱动的算法创新:紧密结合真实业务场景(如智能交互、内容生成、跨模态检索等),设计并优化多模态大模型架构与训练策略,在保证效果领先的同时,持续提升模型效率、稳定性与鲁棒性,推动技术在复杂场景中的规模化落地。 3. 前沿应用技术探索:跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究,快速完成技术验证与实验迭代,探索新建模范式与训练范式,持续刷新相关任务的 SOTA。"

更新于 2026-02-07北京|杭州
logo of kuaishou
实习J1010

1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。

更新于 2025-05-08北京