通义通义实验室-世界模型算法工程师-通义千问

社招全职3年以上技术类-算法2025-08-04地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、计算机视觉、人工智能、机器学习、具身智能等领域的博士/硕士毕业生。
2. 对通用视觉理解或生成模型有一定研究实践，在图像 / 视频 / 3D 等至少一种模态上有实际研发经验。
3. 熟练掌握 Pytorch，熟悉 Megatron 等大模型训练框架，有优秀的 coding / 工程能力。
4. 自我驱动力，动手能力强，工作细致，对AI行业有浓厚的兴趣，有较强的学习能力和责任心。
5. 善于平衡研究目标及落地实现，具备跨学科视野与协作意识，能够与工程、产品等多学科团队紧密合…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于实现理解生成一体化的世界模型，达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破，其中研究内容包括但不限于：理解生成一体化、视觉生成等，充分探索相关数据及训练方法研究，以期解决计算机视觉基本问题的同时，为 AI 赋予创造力，理解世界及预测未来世界。

工作描述：
1. 下一代理解生成一体化的模型结构设计与研发，探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。
2. 研究及探索世界模型的多模态训练数据及对应训练策略。
3. 设计及研发自动化评估方法设计与实现，为模型研发提供科学指导。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

机器学习+

PyTorch+

Megatron+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-代码大模型算法工程师-通义千问

社招1年以上技术类-算法

我们致力于构建能够执行、扩展并自我进化的自主系统。我们相信解决Coding问题是实现 AGI 的关键路径。如果能构建一个超智能的 Coding Agent，那么和数字世界相关的工作都将随之被扩展，并为迈向真实世界的智能奠定基础。工作职责： 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。（1）包括但不限于数据收集、预训练、后训练（强化学习）、评测等方向上的探索。（2）我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力，在专家级编程竞赛超越人类，并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent）的建设，以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。（1）通过 Scaling 海量数字世界数据结合大规模合成数据，来提升 Computer-Use Agent 的 Grouding 能力。（2）通过 Long Horizon 的方式进行强化训练，结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。

更新于 2025-07-31北京|杭州|上海

视觉多模态（生成）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于实现理解生成一体化的世界模型，达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破，其中研究内容包括但不限于：理解生成一体化、视觉生成等，充分探索相关数据及训练方法研究，以期解决计算机视觉基本问题的同时，为 AI 赋予创造力，理解世界及预测未来世界。工作描述： 1. 下一代理解生成一体化的模型结构设计与研发，探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现，为模型研发提供科学指导。

更新于 2025-08-18北京|杭州

通义实验室-视觉语言大模型算法工程师-通义千问

社招2年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。视觉语言理解能力是Qwen最重要的能力之一，围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型，将拓展到视频理解，GUI Agent，以及VLA 和机器人等场景中。团队负责：1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力，并优化多模态大模型AI infra；2）探索多模态Agent和推理能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体；3）研究生成与理解统一的模型架构，实现跨模态生成与推理的协同优化。工作职责 1. 多模态Pre-training：开展研究及进行实验。研究内容包括：数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training：迭代Post-training训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的Test Scaling Laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-04北京|杭州|上海

通义实验室-大模型预训练算法工程师-通义千问

社招1年以上技术类-算法

我们期望打造世界一流的预训练 LLM 基座，开发涵盖参数量从几百M到T级的基座模型，并将作为 Qwen / QwenVL / Qwen-Omni / Qwen-Coder 等系列模型的基座。我们追求将现有的预训练技术做到极致，并积极探索下一代的预训练技术。工作职责： 1. 预训练数据：大规模预训练数据合成技术探索、STEM & reasoning 优化、长尾知识优化、精品数据挖掘过滤、自然数据 scaling、长文本优化、面向 test-time scaling 的数据优化。 2. 预训练策略：新型预训练损失函数探索、遗忘对抗与持续学习、optimizer 优化、lr scheduler 优化、课程学习、scaling law 预测、超参优化。 3. 模型结构：新型模型结构探索、模型可解释性、MoE 优化、参数扩展与裁剪蒸馏、线性注意力、动态稀疏注意力、draft model 优化、动态计算优化、KV cache压缩、长序列优化、decoding 加速等。

更新于 2025-11-18北京|杭州|上海