通义语音多模态研发工程师

校招全职通义2026届秋季校园招聘2025-08-08地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学或相关专业硕士及以上学历，具有扎实的计算机、机器学习等理论基础。
2. 具备良好的编程能力和代码风格，有分布式系统、模型推理、AI Infra开发经验者优先。
3. 较强的分析和解决问题能力，并具备良好的沟通能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队围绕语音多模态模型，基于高性能分布式和云原生相关技术，建设模型推理和服务基础平台。如果你也对AGI有浓厚兴趣，有志于参与语音多模态技术体系的研发，欢迎加入我们团队，共同以技术手段让大模型变得更加普惠。
具体职责包括但不限于：
1. 参与语音和多模态大模型推理框架以及定制微调技术的研发与优化，做到极致性能和成本，探索多模态理解、生成和交互领域的前沿技术研究与创新。
2. 建设支持高并发访问的弹性平台服务后端，实现模型与云上计算资源间的互动，推动大模型在实际业务中的落地与应用。
3. 参与世界级规模的分布式服务端程序的系统设计，为阿里巴巴的产品提供强有力的后台支持，在海量的网络访问和数据处理中，设计并设施最强大的解决方案。
4. 参与跨部门，跨公司协作，探索多模态领域前沿技术研究与创新，推动包括语音在内的各领域最前沿模型的实际应用和落地。
5. 参与产品的开发和维护，完成从需求到设计、开发和上线等整个项目周期内的工作。
6. 与团队成员紧密合作，推动项目进展，交付高质量的技术解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

还有更多 •••

登录查看完整学习资料

相关职位

大语言模型应用算法工程师-豆包大模型

社招1年以上A247041

团队介绍：字节跳动豆包大模型团队成立于 2023 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心，研究方向涵盖NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等50+业务，并通过火山引擎开放给企业客户。目前，豆包APP已成为中国市场用户量最大的AIGC应用。 1、团队负责公司大模型的研发和应用，研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案，满足用户不断增长的智能交互需求，全面提升用户在未来世界的生活和交流方式；主要工作方向包括： 1）优化&创新RLHF算法训练效率与模型泛化能力； 2）Long CoT技术的实现和应用； 3）多模态大模型（文本、图像、语音）的Posttraining算法； 4）构建高质量、多领域的数据合成方法； 5）探索LLM在情感对话、创作等场景的应用。

更新于 2025-02-18上海

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海

大模型平台研发工程师-Seed

社招A78654

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责字节跳动机器学习平台的开发，支撑公司相关业务的算法生产与高效迭代； 2、设计和实现机器学习相关的基础设施、框架、工具链等，并推动落地到业务中； 3、探索业界前沿的机器学习相关技术，持续提升平台能力、降低算法使用成本。

更新于 2024-10-23杭州

端到端多模态交互算法工程师

社招算法开发岗

1.负责跨平台(iOS/Android/Linux)、跨端(服务端+客户端)音视频交互SDK设计、开发与优化； 2.负责和各产品线合作，接入成熟的音视频交互相关处理算法，提升音视频交互在产品中的表现效果； 3.参与开发支持音视频交互相关业务落地和技术研发； 4.持续学习新编程技术、工业界学术界语音系统进展，精炼业务逻辑。

更新于 2025-06-20北京