logo of aligenie

智能互联高德-多模态大模型算法工程师/专家-图片理解/模型训练方向

社招全职3年以上技术类-算法地点:北京状态:招聘

任职要求


基本条件:
1.  计算机科学、人工智能、机器学习等相关专业硕士及以上学历,3年以上算法研发经验;
2.  坚实的多模态大模型基础:深入理解CLIP、BLIP、LLaVA、Qwen-VL等模型的原理,并有相关实践,如有对图片、视频的理解、生成或编辑能力更加分;
3.  强烈的自驱力与好奇心:对探索AI技术边界充满热情,能主动追踪前沿并快速实验验证,具备优秀的学习能力和韧性。

优先条件:
1.  在多模态理解与生成、视觉-语言…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位名称:

团队介绍:
作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。
团队gihub主页:https://github.com/amap-cvlab

为何加入我们?
1.  定义未来地图范式:不再局限于传统视觉感知,而是利用多模态大模型实现从“看到”到“理解并生成”的跨越,解决行业核心痛点
2.  直面海量数据与复杂场景:处理中国乃至全球最复杂、最丰富的驾驶场景数据,构建坚实的技术壁垒
3.  完整的研发生态:从顶级学术研究(顶会论文)、开源项目(见团队GitHub)到国民级应用落地,提供全方位的价值实现舞台

岗位职责:
1.  核心方向:研发面向车道级地图自动化构建的多模态大模型,基于道路图像自动提取车道线、POI信息等地图要素,实现高效、自动化的地图数据生产;
2.  模型全链路研发:负责或参与多模态大模型的预训练、有监督微调(SFT)、奖励模型(RM)训练与强化学习(RL)优化全流程,探索模型在空间推理、结构化生成任务上的能力强化路径;
3.  技术攻坚与落地:优化模型的推理效率、泛化能力与输出稳定性,研究适配的模型压缩(量化、蒸馏)、加速技术与部署方案,推动技术在大规模数据生产管线中落地;
4.  前沿探索与创新:跟踪并吸收多模态理解、视觉生成、世界模型、3DGS等领域的前沿进展,将其创新性地应用于地图生成问题,持续提升自动化生产的质量与范围。
包括英文材料
机器学习+
学历+
算法+
大模型+
自动驾驶+
CVPR+
还有更多 •••
相关职位

logo of amap
社招3年以上技术类-算法

团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。

更新于 2026-01-23北京
logo of amap
社招3年以上技术类-算法

我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1. 多模态大模型研发与应用 负责多模态大模型的核心架构设计,研究并实现图片、视频、文本等跨模态特征对齐、融合与表征学习方法,负责多模态大模型的数据准备、高效训练(包括但不限于预训练、SFT、强化学习等)、推理加速等。 2. 模型优化与小型化部署 负责多模态大模型的轻量化设计、压缩与加速,确保模型在端侧设备上的高效运行。 针对高德地图的实际业务场景,优化模型性能,平衡精度与效率。 3. 创新性研究与落地 跟踪端侧生成式AI(Edge Generative AI)、强化学习(PPO、GRPO等)、智能Agent等前沿技术,探索多模态大模型在自动驾驶、智能导航等领域的潜在应用。 将研究成果快速转化为实际产品功能,推动技术创新与业务增长。

更新于 2026-02-02北京
logo of amap
社招3年以上技术类-算法

负责图像、视频内容理解相关的大模型研发工作,包括但不限于视觉描述生成(Video Caption)、视觉问答(VQA)、多模态大模型(MLLM)等技术,通过内容理解相关算法在业务中的探索与应用,解决实际业务问题;

更新于 2025-09-23北京
logo of amap
社招技术类-算法

团队介绍: 我们团队聚焦多模态模型、大语言模型、扩散模型的前沿探索和算法应用。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,在NeurIPS/ICLR/CVPR/ACL/EMNLP等顶会已发表多篇论文。 具体职责包括但不限于: 多模态模型、扩散模型、图像编辑的研究和应用,包含但不限于文本、图像的跨模态对齐和AIGC内容生成。 大语言模型的前沿探索和应用,包括但不限于SFT和RLHF算法、CoT、Hallucination、Agent等领域的探索与研究; 大模型的效率研究,包括但不限于大模型的量化、蒸馏、训练与推理加速。

更新于 2025-04-07北京