高德地图高德-多模态大模型算法工程师-空间智能方向-视觉技术中心
任职要求
1. 基础要求: 计算机科学、人工智能、遥感等相关专业硕士及以上学历,具备3年及以上计算机视觉或多模态算法研发经验。 2. 核心技术能力: · 精通多模态理解的主流模型与方法(如Qwen-VL、BLIP、Grounding DINO等)。 · 具有丰富的图像/视频理解项目经验,熟悉时序建模、弱监督学习等相关技术者更佳。 · 熟练掌握PyTorch、DeepSpeed、Transformers等主流框架,具备扎实的Python/C++编程和模型调试能力。 3. 方法论经验…
工作职责
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页: https://github.com/amap-cvlab 为何加入我们? 1. 挑战业界顶尖难题: 处理百亿级位置数据,攻克动态世界中海量POI的实时、精准感知与理解,定义未来地图的“AI之眼”。 2. 驱动国民级应用创新: 你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能,实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮: 在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合:在这里,你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境,也看重从1到N的规模化落地能力。 职位描述: 我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。 主要职责: 1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。
职位名称: 团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 1. 定义未来地图范式:不再局限于传统视觉感知,而是利用多模态大模型实现从“看到”到“理解并生成”的跨越,解决行业核心痛点 2. 直面海量数据与复杂场景:处理中国乃至全球最复杂、最丰富的驾驶场景数据,构建坚实的技术壁垒 3. 完整的研发生态:从顶级学术研究(顶会论文)、开源项目(见团队GitHub)到国民级应用落地,提供全方位的价值实现舞台 岗位职责: 1. 核心方向:研发面向车道级地图自动化构建的多模态大模型,基于道路图像自动提取车道线、POI信息等地图要素,实现高效、自动化的地图数据生产; 2. 模型全链路研发:负责或参与多模态大模型的预训练、有监督微调(SFT)、奖励模型(RM)训练与强化学习(RL)优化全流程,探索模型在空间推理、结构化生成任务上的能力强化路径; 3. 技术攻坚与落地:优化模型的推理效率、泛化能力与输出稳定性,研究适配的模型压缩(量化、蒸馏)、加速技术与部署方案,推动技术在大规模数据生产管线中落地; 4. 前沿探索与创新:跟踪并吸收多模态理解、视觉生成、世界模型、3DGS等领域的前沿进展,将其创新性地应用于地图生成问题,持续提升自动化生产的质量与范围。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们在做什么? 高德拥有全中国最庞大、最真实的物理世界视觉数据。我们不只是在做地图,我们正在基于空间智能构建一个能够感知、理解并预测物理规律的“具身基座模型”。 在这里,你将触达数亿级真实街景、轨迹与语义数据,解决从“数字地图”到“通用物理智能”的终极跨越。 岗位核心挑战 具身基座模型 (Embodied Foundation Models): 研发下一代VLA/WAM大模型,突破多模态指令到精准动作映射的瓶颈,实现跨场景的零样本迁移能力。 世界模型 (World Models): 构建基于大规模视频生成的物理世界模拟器,利用生成式AI预测场景演化,为具身智能提供无限的训练“想象空间”。 大模型后训练与强化学习 : 探索GRPO、PPO、SAC等算法在多模态大模型、具身控制上的应用,通过大规模强化学习提升Agent在复杂时空环境下的决策边界。 大规模数据合成与闭环: 利用高德独有的时空数据优势,构建自动化的具身数据生产、评测管线,解决Scaling Law在具身领域的落地难题。 开源影响力与行业基准: 主导或深度参与具身智能开源项目建设。 我们鼓励将核心算法框架、高质量具身数据集或评估基准贡献给开源社区,打造具有行业号召力的开源作品,定义下一代具身智能的技术标准。 为什么加入高德视觉团队? 顶级的“真”数据: 区别于实验室的玩具数据集,我们拥有海量真实室内外场景与空间语义数据,这是训练基座模型最完美的温床。 极致的算力支持: 提供充足的集群资源,让你的Idea不受算力瓶颈束缚。 真实的应用场景: 你的代码将直接驱动真实物理产品,影响数亿用户的出行决策。 极简的技术氛围: 扁平化管理,与世界顶尖研究者共同探索AI的下一站。 加入我们,一起定义物理世界的AI入口!

团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们在做什么? 高德拥有全中国最庞大、最真实的物理世界视觉数据。我们不只是在做地图,我们正在基于空间智能构建一个能够感知、理解并预测物理规律的“具身基座模型”。 在这里,你将触达数亿级真实街景、轨迹与语义数据,解决从“数字地图”到“通用物理智能”的终极跨越。 岗位核心挑战 具身基座模型 (Embodied Foundation Models): 研发下一代VLA/WAM大模型,突破多模态指令到精准动作映射的瓶颈,实现跨场景的零样本迁移能力。 世界模型 (World Models): 构建基于大规模视频生成的物理世界模拟器,利用生成式AI预测场景演化,为具身智能提供无限的训练“想象空间”。 大模型后训练与强化学习 : 探索GRPO、PPO、SAC等算法在多模态大模型、具身控制上的应用,通过大规模强化学习提升Agent在复杂时空环境下的决策边界。 大规模数据合成与闭环: 利用高德独有的时空数据优势,构建自动化的具身数据生产、评测管线,解决Scaling Law在具身领域的落地难题。 开源影响力与行业基准: 主导或深度参与具身智能开源项目建设。 我们鼓励将核心算法框架、高质量具身数据集或评估基准贡献给开源社区,打造具有行业号召力的开源作品,定义下一代具身智能的技术标准。 为什么加入高德视觉团队? 顶级的“真”数据: 区别于实验室的玩具数据集,我们拥有海量真实室内外场景与空间语义数据,这是训练基座模型最完美的温床。 极致的算力支持: 提供充足的集群资源,让你的Idea不受算力瓶颈束缚。 真实的应用场景: 你的代码将直接驱动真实物理产品,影响数亿用户的出行决策。 极简的技术氛围: 扁平化管理,与世界顶尖研究者共同探索AI的下一站。 加入我们,一起定义物理世界的AI入口!