logo of tongyi

通义语音多模态大模型算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学或相关专业硕士及以上学历,具有扎实的计算机、机器学习等理论基础。
2. 熟练掌握至少一种编程语言,具备扎实的技术基础。
3. 熟悉深度学习、信号处理、语音识别、语…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。

我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。

工作职责
1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。
2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。
3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。
4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。
包括英文材料
学历+
机器学习+
还有更多 •••
相关职位

logo of mi
社招A31384

1、负责语音多模态模型算法方案研发、迭代和落地应用 2、负责大规模、多模态数据集的构建、清洗、标注和管理 3、持续跟踪国际前沿的语音、多模态及大模型技术动态

更新于 2025-11-25北京
logo of kuaishou
实习J1010

1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。

更新于 2025-05-08北京
logo of mi
实习

1. 研究语音多模态大模型前沿技术 2. 负责语音多模态模型算法方案研发、迭代与落地应用

更新于 2024-11-14北京
logo of mi
实习

1、研究语音多模态大模型前沿技术 2、负责语音多模态模型算法方案研发、迭代和落地应用

更新于 2025-07-04北京