阿里云阿里云智能-语音&全模态大模型算法工程师-后训练方向-杭州/北京

社招全职3年以上云智能集团2026-03-23地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机、人工智能等相关专业硕士/博士学位，在语音处理、多模态学习、大模型后训练等领域具备扎实的理论基础；  
2、实战经验与工程能力：  
● 有实际落地语音或音视频多模态项目经验，能处理真实场景中的噪声、口音、多说话人、低资源等问题；
● 熟悉主流语音模型（如 Nvidia-Nemotron-Speech 等）及多模态大模型（如 Qwen-Omni等）架构；  
● 精通大模型后训练技术，包括监督微调、指令微调、强化学习对齐、持续学习等；  
● …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

深入阿里云各行业的真实业务场景，基于阿里的语音与全模态大模型（Omni/ASR/TTS），打造行业领先的领域模型与定制化解决方案，并将核心能力反哺至基座模型。工作内容包括并不限于：
1、业务攻坚与定制化调优：深入理解业务场景（如智能客服、会议转录、车载语音、在线教育等），针对客户真实需求和挑战问题（如高噪音、多说话人、情感感知等）进行算法攻坚和端到端交付。
2、大模型增强：利用后训练全链路技术和数据飞轮（数据构建 → 模型微调 → 强化对齐 → 效果评测），增强模型的语音识别、语音合成、多模态理解、声纹识别等核心能力，并将评测、数据和算法能力沉淀到基座模型，持续提升通用大模型在真实场景中的能力。
3、多模态融合与对齐优化：主导语音信号与文本、图像、视频等模态的深度融合技术研发，解决跨模态语义对齐、噪声鲁棒性、低资源适配等关键挑战。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

强化学习+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

语音唤醒算法工程师（J69541）

社招技术中台群组

-跟踪kws前沿相关技术 -负责定制唤醒、自定义唤醒等技术研发和业务支持 -负责声源定位技术的研发和业务支持 -负责AEC技术的研发和业务支持

更新于 2026-06-22北京

语音大模型后端实习生-Data语音

实习A143963

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程，赋能内容创作和互动，并以中台形式支持集团多个业务，提供业界前沿的技术能力与解决方案。 1、负责字节跳动豆包语音大模型能力的原子能力后端开发，确保在豆包、剪映、抖音等落地； 2、推进语音、多模态交互大模型最新技术的工程优化和应用落地； 3、大模型分布式推理的架构和优化，在模型高速迭代的过程中，保证架构可扩展、高可用、合理资源利用率； 4、建设输出创新能力提升豆包、剪映、抖音等产品语音交互和智能创作体验。

更新于 2026-01-16深圳

语音算法工程师

社招技术类

第四范式是中国智能决策市场的最大参与者。公司致力于实现企业级人工智能快速规模化落地，为企业提供以“决策型AI”、“生成式AI”为核心的技术、产品及解决方案，推动传统企业的数字化转型进程。2023年2月发布自研的多模态大模型产品“式说（4Paradigm SageGPT）”，已积累了数家国内最早的AIGC产业应用。目前已上市，有机会争取股票激励。•负责语音方向的设计和研发，模型的效果优化，包括不限于：参与语音识别、语音合成、声纹识别、语音评测等方向•将语音领域的算法应用于实际场景，解决真实业务问题•将实践中的创新点以Github Repo/Paper/Tech Report等形式开源

更新于 2023-02-27北京

语音交互算法工程师（精英实习）

实习人工智能

1. 深度参与雷火各旗舰游戏，实时语音交互、语音内容生产、语音创新玩法等场景研发和落地，为玩家创造崭新的互动娱乐体验； 2. 跟踪语音前沿技术，将最新的语音生成大模型、端到端语音大模型等先进技术落地至业务中； 3. 参与语音算法方案的整个生命周期，包括方案设计、算法实现、数据工程、线上服务等全流程。

杭州