logo of tongyi

通义语音多模态大模型算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学或相关专业硕士及以上学历,具有扎实的计算机、机器学习等理论基础。
2. 熟练掌握至少一种编程语言,具备扎实的技术基础。
3. 熟悉深度学习、信号处理、语音识别、语音合成、口语语言处理、语音交互、人工智能等类似领域。
4. 有良好的自我学习能力及自驱力,对前沿领域有强探索欲和好奇心、善于独立思考并反思总结;具备良好的沟通能力和团队协作能力。

工作职责


近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。

我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。

工作职责
1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。
2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。
3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。
4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。
包括英文材料
学历+
机器学习+
深度学习+
语音识别+
相关职位

logo of kuaishou
实习J1010

1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。

更新于 2025-05-08
logo of mi
实习

1. 研究语音多模态大模型前沿技术 2. 负责语音多模态模型算法方案研发、迭代与落地应用

更新于 2024-11-14
logo of mi
实习

1、研究语音多模态大模型前沿技术 2、负责语音多模态模型算法方案研发、迭代和落地应用

更新于 2025-07-04
logo of mi
校招

1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流; 3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度; 4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等; 5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。 【课题名称】 端到端全模态理解和推理大模型研究与应用 【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化; 2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等; 3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25