高德地图高德-世界模型算法工程师-视觉团队

社招全职3年以上技术类-算法2025-12-29地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机科学、人工智能、机器人、应用数学、自动化或相关专业硕士及以上学历（博士优先）；
2、在生成式模型、3D视觉、具身智能或强化学习等领域有深入的研究背景，具备扎实的数理统计/数学物理/深度学习/机器学习基础；
3、核心算法领域（至少精通以下其中一项，熟悉多项）：
a.视频/图像生成： 深入理解 Diffusion Model (DDPM, LDM, DiT), VAE, GAN 等生成模型原理；熟悉视频生成架构（如Sora类DiT架构、Video LDM、SVD）及可控生成技术（如ControlNet, Adapter）。
b.3D重建与生成： 精通 NeRF, 3D Gaussian Splatting (3DGS) 等神经渲染技术，或熟悉 Multi-view Stereo (MVS), Structure from Motion (SfM) 等传统三维视觉算法；了解 3D Mesh/Point Cloud 生成模型。
c.世界模型与RL： 熟悉基于模型的强化学习（Model-based RL），了解 World Models (如Dreamer系列, JEPA架构)，理解状态空间模型（SSM/Mamba）在长序列预测中的应用。
d.VLM与空间推理：深入理解 CLIP, LLaVA, Qwen…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

这个世界的运行机制是否是可计算的？世界的复杂性是否唯有用AI的复杂性来应对？人类是否可以造出一台机器让未来就像过去一样历历在目？面对这些未知而又迷人的世界级难题，阿里巴巴旗下高德地图将组建一支卓越的AI队伍向世界模型发起冲击。在这里，你将获得无限制的算力，让想象力在算力的加持下尽情驰骋；在这里，你将和顶级的空间智能专家并肩作战，让专业与专注碰撞出世界模型最精彩的火花；在这里，你将接触到高德积累了20年的海量真实世界数据，让包罗万象的数据发挥它本来应有的价值。

一、团队介绍
我们是阿里巴巴旗下高德视觉技术中心的具身世界模型团队。这里有自由探索、开放交流的技术氛围，让每个有价值的idea都得到充分的展现和验证。这里有来自国内外顶尖院校毕业的研究员，知名AI项目/论文的作者可能就坐在你身边，让顶尖智力一起碰撞出最美妙的火花。我们是一支兼具学术界和产业界视角的团队，仰望星空，脚踏实地。
团队gihub主页：https://github.com/amap-cvlab

二、我们要去哪？
1、打造可交互、可控制、物理一致的世界模型，突破空间智能技术边界
2、通过世界模型加速物理智能体的进化
3、探索下一代时空基座模型

三、岗位职责：
1. 3D动/静态生产： 利用三维重建、生成模型、多模态大模型对单图、视频完成动态物体/静态场景重建、生成、编辑，并得到可交互的3D资产与长时序视频；
2. 结合3D表征的视频生成： 研发基于动作、轨迹等条件控制的视频生成算法，确保生成内容具备严格的3D几何一致性与物理规律遵循，实现对场景视角、物体交互的精细化控制，为具身智能体提供高保真的虚拟训练环境；
3. 空间推理： 赋予模型深度的三维空间理解与物理常识推理能力（如物体可供性、碰撞动力学、场景拓扑），使其能理解场景背后的物理因果，辅助下游的复杂决策与规划；
4. 训练闭环搭建： 构建“生成-仿真-评估-优化”的自动化数据闭环，利用生成数据扩充训练集（Data Augmentation），并通过端到端系统的反馈迭代优化世界模型，实现数据飞轮效应；
5. 世界模型构建： 结合具身智能、自动驾驶等数据探索空间智能的统一范式，完成环境感知、智能体预测、决策规划等任务并得到未来状态和未来传感器信息，为强化学习提供基座；
6. 产线落地与性能优化： 与具身智能、自动驾驶、智能导航等业务协同，完善仿真数据链路，优化模型推理效率与显存占用；
7. 前沿追踪： 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展，保持公司在该领域的技术领先地位。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

深度学习+

机器学习+

算法+

Framer Motion+

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

生成式AI/世界模型算法工程师-视觉团队

实习高德地图2026

岗位介绍：我们正在寻找一位才华横溢的生成式AI/世界模型算法工程师加入我们的团队，共同探索人工智能的前沿领域，构建下一代智能系统的核心技术。如果你对生成式AI/世界模型有深入的理解和研究，渴望在这一领域大展身手，那么请加入我们！主要职责： 1. 3D静态生成：负责3D物体/场景生成算法的优化，探索高效的3D生成表示方式，并改进扩散或自回归生成模型，提升单图到3D物体或场景生成的精度与稳定性； 2. 3D动态生成：基于扩散/自回归视频生成基模，并引入3D场景表征和隐式动作表征，实现长视界一致、并且可交互的动态视频生成； 3. 世界模型构建：参与世界模型的前沿技术探索，包括环境建模、状态预测、决策规划等方面，以构建能够准确模拟和理解复杂环境的智能模型。探索空间智能的统一建模范式，包括未来状态预测以及未来动作预测，并构建反馈机制，最终实现自主学习； 4. 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展，保持公司在该领域的技术领先地位。

更新于 2025-06-03北京

多模态大模型算法工程师-视觉团队

实习高德地图2026

一、团队介绍高德视觉技术中心为高德业务提供全面的核心视觉技术，是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域，我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法，促科技创新，与生态共进，连接真实世界，做好一张活地图，让出行和生活更美好！通过视觉技术中心的春季实习生项目，高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据，在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们，一起打造极致的算法和产品体验。二、基本要求面向预期于26、27届毕业的同学，可以连续实习至少三个月的同学优先。实习地点：北京，我们将提供有竞争力的实习薪酬和充足的训练资源。三、算法实习生职位描述团队主要聚焦视觉、矢量地图、多模态大模型技术，我们期待你的工作将覆盖以下至少一个技术方向： 1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术，包括但不限于矢量地图构建、矢量地图关联等； 2. 探索多模态大模型在下游任务中的技术能力，包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等；

更新于 2025-03-31北京

高德-生成式AI/世界模型算法工程师/专家-视觉团队

社招2年以上技术类-算法

团队介绍：作为中国领先的数字地图内容及导航服务提供商，高德地图日均服务数亿用户出行决策，每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM，AI Agent等核心技术，持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕，更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。作为高德地图的核心技术驱动部门，我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心，推动智能出行与真实世界连接的深度融合。团队gihub主页：https://github.com/amap-cvlab 岗位介绍：我们正在寻找一位才华横溢的生成式AI/世界模型算法工程师加入我们的团队，共同探索人工智能的前沿领域，构建下一代智能系统的核心技术。如果你对生成式AI/世界模型有深入的理解和研究，渴望在这一领域大展身手，那么请加入我们！主要职责： 1. 3D静态生成：负责3D物体/场景生成算法的优化，探索高效的3D生成表示方式，并改进扩散或自回归生成模型，提升单图到3D物体或场景生成的精度与稳定性； 2. 3D动态生成：基于扩散/自回归视频生成基模，并引入3D场景表征和隐式动作表征，实现长视界一致、并且可交互的动态视频生成； 3. 世界模型构建：参与世界模型的前沿技术探索，包括环境建模、状态预测、决策规划等方面，以构建能够准确模拟和理解复杂环境的智能模型。探索空间智能的统一建模范式，包括未来状态预测以及未来动作预测，并构建反馈机制，最终实现自主学习； 4. 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展，保持公司在该领域的技术领先地位。

更新于 2026-02-03北京

高德-3D/视频生成与世界模型算法专家/工程师-视觉团队

社招2年以上技术类-算法

我们是高德视觉技术中心，专注于以计算机视觉技术为核心的前沿研究与创新应用，致力于打造时空互联网领域的核心技术能力。我们致力于构建 “真实世界 × 虚拟世界” 的生成式世界模型，引领多模态 AI 赋能智慧出行和日常生活。团队成员参与端到端 3D+视频+语言大模型的研发，与阿里云算力、十亿级全域图像 / 点云 / 出行数据深度结合，让算法在真实应用中产生即时经济价值与社会影响力。团队主页：https://github.com/amap-cvlab 岗位职责： 1. 核心算法研发：主导 1B-100B 参数级世界模型 / VLA / VLM 网络的整体方案与关键模块创新； 2. 高效预训练与微调：构建跨模态自监督目标（时序一致性、物理一致性、语言对齐等），并推动 SFT → DPO → RL-HF 全链路落地上线； 3. 跨模态推理与生成：针对 3D 场景、连续视频、语言描述开展对齐、生成与评估实验，推动端到端模型落地。创新3D场景/连续视频/交互策略/语言描述等跨多种模态的端到端理解与生成； 4. 产线落地与性能优化：与地图引擎、自动驾驶、智能导航等业务协同，迭代模型压缩、Edge-Cloud 混合部署、隐私数据训练； 5. 技术沉淀与传播：完成技术调研、实验复现、消融与报告撰写，将成果转化为论文、专利等技术沉淀。

更新于 2026-01-15北京