通义通义实验室-世界模型算法工程师-Qwen
任职要求
1. 计算机科学、计算机视觉、人工智能、机器学习、具身智能等领域的博士/硕士毕业生。 2. 对通用视觉理解或生成模型有一定研究实践,在图像 / 视频 / 3D 等至少一种模态上有实际研发经验。 3. 熟练掌握 Pytorch,熟悉 Megatron 等大模型训练框架,有优秀的 coding / 工程能力。 4. 自我驱动力,动手能力强,工作细致,对AI行业有浓厚的兴趣,有较强的学习能力和责任心。 5. 善于平衡研究目标及落地实现,具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合…
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
这个世界的运行机制是否是可计算的?世界的复杂性是否唯有用AI的复杂性来应对?人类是否可以造出一台机器让未来就像过去一样历历在目?面对这些未知而又迷人的世界级难题,阿里巴巴旗下高德地图将组建一支卓越的AI队伍向世界模型发起冲击。在这里,你将获得无限制的算力,让想象力在算力的加持下尽情驰骋;在这里,你将和顶级的空间智能专家并肩作战,让专业与专注碰撞出世界模型最精彩的火花;在这里,你将接触到高德积累了20年的海量真实世界数据,让包罗万象的数据发挥它本来应有的价值。 一、团队介绍 我们是阿里巴巴旗下高德视觉技术中心的具身世界模型团队。这里有自由探索、开放交流的技术氛围,让每个有价值的idea都得到充分的展现和验证。这里有来自国内外顶尖院校毕业的研究员,知名AI项目/论文的作者可能就坐在你身边,让顶尖智力一起碰撞出最美妙的火花。我们是一支兼具学术界和产业界视角的团队,仰望星空,脚踏实地。 团队gihub主页:https://github.com/amap-cvlab 二、我们要去哪? 1、打造可交互、可控制、物理一致的世界模型,突破空间智能技术边界 2、通过世界模型加速物理智能体的进化 3、探索下一代时空基座模型 三、岗位职责: 1. 3D动/静态生产: 利用三维重建、生成模型、多模态大模型对单图、视频完成动态物体/静态场景重建、生成、编辑,并得到可交互的3D资产与长时序视频; 2. 结合3D表征的视频生成: 研发基于动作、轨迹等条件控制的视频生成算法,确保生成内容具备严格的3D几何一致性与物理规律遵循,实现对场景视角、物体交互的精细化控制,为具身智能体提供高保真的虚拟训练环境; 3. 空间推理: 赋予模型深度的三维空间理解与物理常识推理能力(如物体可供性、碰撞动力学、场景拓扑),使其能理解场景背后的物理因果,辅助下游的复杂决策与规划; 4. 训练闭环搭建: 构建“生成-仿真-评估-优化”的自动化数据闭环,利用生成数据扩充训练集(Data Augmentation),并通过端到端系统的反馈迭代优化世界模型,实现数据飞轮效应; 5. 世界模型构建: 结合具身智能、自动驾驶等数据探索空间智能的统一范式,完成环境感知、智能体预测、决策规划等任务并得到未来状态和未来传感器信息,为强化学习提供基座; 6. 产线落地与性能优化: 与具身智能、自动驾驶、智能导航等业务协同,完善仿真数据链路,优化模型推理效率与显存占用; 7. 前沿追踪: 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展,保持公司在该领域的技术领先地位。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder 团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的 coding agent / digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过 Scaling 海量数字世界数据结合大规模合成数据,来提升 Computer-Use Agent 的 Grouding 能力。 (2)通过 Long Horizon 的方式进行强化训练,结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder 团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的 coding agent / digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)我们坚持 Large-scale Pre-training 和 Large-scale RL 来提升 Code Reasoning 能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务。 2. 负责 Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过 Scaling 海量数字世界数据结合大规模合成数据,来提升 Computer-Use Agent 的 Grouding 能力。 (2)通过 Long Horizon 的方式进行强化训练,结合可扩展的多模态环境反馈来提升 CU Agent 的 Reasoning 的能力。