高德地图高德-算法工程师-VLM/视觉定位/多模态/语义感知方向
任职要求
1、熟练掌握常用的数据挖掘、机器学习、深度学习算法,并有产品化经验,具备良好的算法选型能力; 2、在至少一个算法领域有深入的研究,不限于时序预测、LLM训练、视觉定位、VLM、多模态、空间语义感知等…
工作职责
岗位职责:参与设计、开发、迭代高德地图的空间感知大模型(Space LLM),将传感器时序信号、道路信息、POI信息、卫星图、摄像头图像均喂给LLM,让LLM结合定位信号和空间语义,进行位置匹配和轨迹推算,一方面提升轨迹预测精度,另一方面输出位置的语义信息,包括用户状态(驾车、骑行、步行、上下电梯、驻留等)、环境语义(具体道路、建筑、楼层、POI)、意图预测,并在手机端和车机端落地
1设计与实施多模态数据构建方案:包含数据采集、清洗、标注、弱监督/自监督数据生成、数据质量评估与反馈闭环 2构建和维护训练/评测基准(benchmarks):覆盖视觉推理、视频理解等 3负责多模态大模型(VLM,Vision-Language Model)的优化,包括模型架构对接、训练策略、推理加速与效果评估。 4关注前沿技术并进行可行性验证(PoC),推动新算法或新数据策略到生产级落地 5撰写技术文档,沉淀最佳实践,指导初级工程师与标注团队
1. 构建基于计算机视觉 + VLM/MLLM 的容器与商品语义理解体系,融合图像、点云与文本信息,提高复杂 SKU 识别与定位鲁棒性。 2. 设计检测/分割 + 3D 点云融合网络,实现多品混放场景的实例分割与 6D 抓取点预测。 3. 对 LLaVA、Qwen2-VL、InternVL2.5 等多模态大模型进行指令微调,支持机器人自然语言任务下达与动态规划。 4. 负责相机、雷达联合标定,多传感器融合(RGB-D + 点云 + 力矩传感器)。 5. 搭建自动标注与主动学习流水线,建设数据飞轮。 6. 关注行业最新多模态技术,快速验证并落地仓储场景。
一、团队介绍 高德视觉技术中心为高德业务提供全面的核心视觉技术,是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域, 我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法, 促科技创新,与生态共进,连接真实世界,做好一张活地图,让出行和生活更美好! 通过视觉技术中心的春季实习生项目,高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据,在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们,一起打造极致的算法和产品体验。 二、基本要求 面向预期于26、27届毕业的同学,可以连续实习至少三个月的同学优先。实习地点:北京,我们将提供有竞争力的实习薪酬和充足的训练资源。 三、算法实习生 职位描述 团队主要聚焦视觉、矢量地图、多模态大模型技术,我们期待你的工作将覆盖以下至少一个技术方向: 1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术,包括但不限于矢量地图构建、矢量地图关联等; 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等;
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1. 跟进LLM / VLM大模型的最新技术动态,围绕Reasoning技术(如思维链、多步推理)、Long Context技术、自动化数据合成、指令微调(Instruction Tuning)、偏好对齐(RLHF/DPO)等技术,持续推动算法创新与落地; 2. 面向垂直场景打造 LLM / VLM 应用体系,构建端到端数据链路,建立高稳定、低幻觉的模型交付框架,以极致的智能交互体验重塑用户在未来世界的生活与沟通方式。