通义语音多模态大模型算法工程师

校招全职通义2026届秋季校园招聘2025-08-07地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学或相关专业硕士及以上学历，具有扎实的计算机、机器学习等理论基础。
2. 熟练掌握至少一种编程语言，具备扎实的技术基础。
3. 熟悉深度学习、信号处理、语音识别、语…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

近年来，以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展，展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态，对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴，有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景，以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。

我们致力于通用人工智能（AGI）方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能（AGI/ASI）前沿探索、多模态建模与智能交互系统有浓厚兴趣，并渴望深入参与下一代多模态通用模型的研发与演进，欢迎加入我们，共同定义未来AI的能力边界，牵引千行百业在智能时代的深度变革。

工作职责
1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。
2. 负责语音信号处理的相关算法研究和开发，包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。
3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。
4. 语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

大语言模型应用算法工程师-豆包大模型

社招1年以上A247041

团队介绍：字节跳动豆包大模型团队成立于 2023 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心，研究方向涵盖NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等50+业务，并通过火山引擎开放给企业客户。目前，豆包APP已成为中国市场用户量最大的AIGC应用。 1、团队负责公司大模型的研发和应用，研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案，满足用户不断增长的智能交互需求，全面提升用户在未来世界的生活和交流方式；主要工作方向包括： 1）优化&创新RLHF算法训练效率与模型泛化能力； 2）Long CoT技术的实现和应用； 3）多模态大模型（文本、图像、语音）的Posttraining算法； 4）构建高质量、多领域的数据合成方法； 5）探索LLM在情感对话、创作等场景的应用。

更新于 2025-02-18上海

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海

大模型平台研发工程师-Seed

社招A78654

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责字节跳动机器学习平台的开发，支撑公司相关业务的算法生产与高效迭代； 2、设计和实现机器学习相关的基础设施、框架、工具链等，并推动落地到业务中； 3、探索业界前沿的机器学习相关技术，持续提升平台能力、降低算法使用成本。

更新于 2024-10-23杭州

多模态大模型算法工程师（J83573）

社招MEG

-研发突破性多模态大模型架构，探索视觉-语言-语音-3D跨模态融合新范式 -优化大模型训练策略，攻克模态对齐、知识蒸馏、强化学习等技术难题 -推动前沿技术产品化落地，在百度网盘、百度文库、TeraBox、橙篇等产品场景实现价值闭环，改变十亿级用户产品体验 -持续跟踪ICLR/NeurIPS/CVPR等顶会最新进展，保持技术领先性 -深入挖掘产品潜在价值和需求，通过技术创新推动产品成长

更新于 2025-05-21北京