通义通义实验室-Omni 端到端多模态算法工程师-北京/杭州

社招全职3年以上技术类-算法2026-03-26地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、电子工程、人工智能/机器学习或相关领域硕士及以上学历，具备2年以上多模态 AI 或语音处理相关行业经验。
2. 精通多模态学习（视觉-语言、音频-视觉或全模态模型），熟练使用深度学习框架（PyTorch 优先）及分布式训练，并具备大规模模型训练经验（LLM、VLM 或语音基础模型）和扎实的 Python 编程能力，熟悉 CUDA/GPU 优化。
3. 深入理解 Transformer 架构和注意力机制，深入理解diffusion、flow-matching、vocoder等相关技术，熟悉…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找一位优秀的 Omni 端到端多模态算法工程师 加入MAI多模态团队。该岗位负责开发和优化统一的多模态模型，将语音、视觉和语言能力无缝整合到单一端到端系统中。你将参与构建下一代 AI 系统，实现跨多种模态的实时理解与生成。
核心职责
1. 端到端模型研发：设计、训练和优化统一语音、视觉、文本处理的 Omni 模型架构。
2. 多模态融合：研究跨模态表征学习与对齐技术，实现音频、视觉、文本的深度融合。
3. 语音能力建设：构建高人感的端到端语音理解与生成能力。 
4. 模型架构创新：调研并实现前沿架构（如统一 Transformer、原生多模态大模型）用于全模态理解。
5. 训练流程搭建：构建大规模多模态预训练和指令微调的可扩展训练基础设施。
6. 实时性能优化：优化模型以实现低延迟、流式推理，满足生产环境需求。
7. 跨团队协作：与研究同学、产品团队和基础设施工程师紧密合作，交付端到端 AI 解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

深度学习+

PyTorch+

大模型+

Python+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海

实习-多模态大模型算法工程师（语音方向）

实习算法

1. 参与多模态大模型语音方向的研发工作，包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等 2. 负责多模态大模型前沿算法的探索 3. 负责多模态大模型相关数据的清洗、扩增，提升数据质量 4. 参与多模态大模型的训练、优化和测试，提升模型的性能和稳定性 5. 协助团队完成相关项目的开发和落地，实现技术成果的转化

更新于 2025-07-02上海|北京

阿里云智能-语音&全模态大模型算法工程师-后训练方向-杭州/北京

社招3年以上云智能集团

深入阿里云各行业的真实业务场景，基于阿里的语音与全模态大模型（Omni/ASR/TTS），打造行业领先的领域模型与定制化解决方案，并将核心能力反哺至基座模型。工作内容包括并不限于： 1、业务攻坚与定制化调优：深入理解业务场景（如智能客服、会议转录、车载语音、在线教育等），针对客户真实需求和挑战问题（如高噪音、多说话人、情感感知等）进行算法攻坚和端到端交付。 2、大模型增强：利用后训练全链路技术和数据飞轮（数据构建 → 模型微调 → 强化对齐 → 效果评测），增强模型的语音识别、语音合成、多模态理解、声纹识别等核心能力，并将评测、数据和算法能力沉淀到基座模型，持续提升通用大模型在真实场景中的能力。 3、多模态融合与对齐优化：主导语音信号与文本、图像、视频等模态的深度融合技术研发，解决跨模态语义对齐、噪声鲁棒性、低资源适配等关键挑战。

更新于 2026-03-23北京|杭州

VLA算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在此基础上，我们致力于研究Qwen面向具身智能领域的下一代基础模型，将Qwen强大的认知与推理能力赋予物理世界的机器人智能体，打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信，通过融合前沿的多模态大模型与机器人技术，我们将开创通用人工智能的下一个篇章，让AI真正走进并服务于现实生活。工作职责： 1. 具身基础模型研究：构建面向机器人的多模态基础模型，将视觉语言模型与机器人中心的物理世界理解与决策深度融合，构建具身领域的高质量的大规模真实与仿真数据集，设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立：构建面向机器人多模态基础模型的能力基准，设计有效的测试基准，持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署：构建机器人软硬件一体化系统，将算法部署在真实机器人平台（如机械臂、人形机器人）上，进行端到端的验证与迭代，推动研究成果的实际落地。

更新于 2026-02-27北京|杭州