logo of tongyi

通义通义实验室-世界模型算法工程师-通义千问

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、计算机视觉、人工智能、机器学习、具身智能等领域的博士/硕士毕业生。
2. 对通用视觉理解或生成模型有一定研究实践,在图像 / 视频 / 3D 等至少一种模态上有实际研发经验。
3. 熟练掌握 Pytorch,熟悉 Megatron大模型训练框架,有优秀的 coding / 工程能力。
4. 自我驱动力,动手能力强,工作细致,对AI行业有浓厚的兴趣,有较强的学习能力和责任心。
5. 善于平衡研究目标及落地实现,具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响力。
6. 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,具备独立思考能力和系统性研究思维,敢于挑战现有范式,能够独立应用技术解决复杂问题。

加分项:
1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于:CVPRECCVNeurIPSICMLICLR、ACL、TPAMI等国际顶级计算机会议/期刊。
2. 拥有知名开源项目,在开源社区具有较好的影响力,或在竞赛中获得引领性的研究成果。
3. 具有大规模预训练实战经验。

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。

工作描述:
1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。
2. 研究及探索世界模型的多模态训练数据及对应训练策略。
3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
包括英文材料
OpenCV+
机器学习+
PyTorch+
Megatron+
大模型+
CVPR+
ECCV+
NeurIPS+
ICML+
相关职位

logo of tongyi
社招1年以上技术类-算法

我们致力于构建能够执行、扩展并自我进化的自主系统。我们相信解决Coding问题是实现 AGI 的关键路径。如果能构建一个超智能的 Coding Agent,那么和数字世界相关的工作都将随之被扩展,并为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过 Scaling 海量数字世界数据结合大规模合成数据,来提升 Computer-Use Agent 的 Grouding 能力。 (2)通过 Long Horizon 的方式进行强化训练,结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。

更新于 2025-07-31
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。

更新于 2025-08-18
logo of tongyi
社招2年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-04
logo of tongyi
社招1年以上技术类-算法

我们期望打造世界一流的预训练 LLM 基座,开发涵盖参数量从几百M到T级的基座模型,并将作为 Qwen / QwenVL / Qwen-Omni / Qwen-Coder 等系列模型的基座。我们追求将现有的预训练技术做到极致,并积极探索下一代的预训练技术。 工作职责: 1. 预训练数据:大规模预训练数据合成技术探索、STEM & reasoning 优化、长尾知识优化、精品数据挖掘过滤、自然数据 scaling、长文本优化、面向 test-time scaling 的数据优化。 2. 预训练策略:新型预训练损失函数探索、遗忘对抗与持续学习、optimizer 优化、lr scheduler 优化、课程学习、scaling law 预测、超参优化。 3. 模型结构:新型模型结构探索、模型可解释性、MoE 优化、参数扩展与裁剪蒸馏、线性注意力、动态稀疏注意力、draft model 优化、动态计算优化、KV cache压缩、长序列优化、decoding 加速等。

更新于 2025-07-04