通义通义实验室 - 通义千问全模态统一理解生成前沿技术研究 - 阿里星

校招全职通义2026届秋季校园招聘2025-08-18地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 来自全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生；
2. 在深度学习、大规模模型训练、优化算法、生成式模型、自监督学习等领域有扎实的理论基础和实践经验，并至少在其中一个方向产生具有行业影响力的创新性成果；
3. 在国际顶级计算机会议/期刊（如NeurIPS、ICML、ICLR、ACL、TPAMI等）以一作身份发表过多篇论文，或在开源社区、竞赛中展示出引领性的研究成果；
4. 对基础模型的前沿问题有持续热情，具备独立思考能力和系统性研究思维，敢…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

通义千问（Qwen）全模态统一理解生成前沿技术研究，团队在多个方向上进行探索（具体如下罗列），若你对以下一个或者多个课题感兴趣均欢迎投递：
1. 模型架构与学习机制探索
（1）预训练与后训练技术：持续提升模型的理解力、推理力与泛化能力。
（2）探索下一代学习范式，如自监督学习、动态训练策略、知识蒸馏等。
2. 多模态与多智能体感知交互系统
（1）打造 Omni 基座模型，实现文本、语音、视觉等多模态一体化理解与生成，推动世界模型的发展。
（2）开发超智能的 Coding Agent，打通语言与代码之间的桥梁，连接 AI 与数字世界。
（3）构建下一代 AI 交互系统，在 GUI Agent、视频理解等前沿场景，探索 AI 自主执行、扩展、进化的可能性。
3. 数据建设与性能优化
（1）数据工程：设计高效的数据处理管线，持续提升自然语言、代码、多模态等数据质量与规模。
（2）推理优化：探索模型高并发服务下，算法及系统框架侧技术创新与优化，包括但不限于训练推理协同优化、模型推理新范式。
4. 评测与安全体系
（1）构建下一代大模型评估系统，覆盖推理、生成、可控性等多个维度。
（2）关注模型内生安全，追求 AI 对人类有益且可控，参与对抗攻击检测、伦理约束建模等工作。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

算法+

NeurIPS+

ICML+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

视觉多模态（生成）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于实现理解生成一体化的世界模型，达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破，其中研究内容包括但不限于：理解生成一体化、视觉生成等，充分探索相关数据及训练方法研究，以期解决计算机视觉基本问题的同时，为 AI 赋予创造力，理解世界及预测未来世界。工作描述： 1. 下一代理解生成一体化的模型结构设计与研发，探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现，为模型研发提供科学指导。

更新于 2025-08-18北京|杭州

视觉多模态（理解）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。若你对以下一个或者多个方向感兴趣均欢迎投递： 1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力，并同时优化多模态大模型的AI infra。 2）通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体，将相关能力拓展到GUI agent，VLA，以及具身智能场景中。 3）研究理解与生成统一的模型架构，实现跨模态生成与推理的协同优化。工作职责： 1. 多模态 pre-training：开展研究及进行实验，研究内容包括：数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training：迭代 post-training 训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的 test scaling laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22北京|杭州

通义实验室-VLA算法专家-通义千问

社招3年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在此基础上，我们致力于研究Qwen面向具身智能领域的下一代基础模型，将Qwen强大的认知与推理能力赋予物理世界的机器人智能体，打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信，通过融合前沿的多模态大模型与机器人技术，我们将开创通用人工智能的下一个篇章，让AI真正走进并服务于现实生活。工作职责： 1. 具身基础模型研究：构建面向机器人的多模态基础模型，将视觉语言模型与机器人中心的物理世界理解与决策深度融合，构建具身领域的高质量的大规模真实与仿真数据集，设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立：构建面向机器人多模态基础模型的能力基准，设计有效的测试基准，持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署：构建机器人软硬件一体化系统，将算法部署在真实机器人平台（如机械臂、人形机器人）上，进行端到端的验证与迭代，推动研究成果的实际落地。

更新于 2025-10-31杭州

通义实验室-算法专家-Qwen基座音乐生成

社招3年以上技术类-算法

团队介绍通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation，同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。职位描述: 参与Qwen3-Music项目研究以及开源，构建世界级的影响力项目。团队致力于打造全球最具影响力的音频模型，曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。

更新于 2025-12-04北京|杭州