高德地图高德-VLA/空间计算/RL算法专家-视觉团队
任职要求
● 计算机科学、人工智能、机器人、电子工程等相关专业硕士及以上学历; ● 2年及以上自动驾驶/服务机器人领域核心算法经验,主导自动驾驶/机器人领域核心算法量产落地; ● 具备扎实的算法和编程基础,熟练使用至少一种深度学习框架; ● 在计算机视觉、自然语言处理、机器人感知或强化学习等领域有研究或项目经验; ● 在顶级会议(CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IROS、RSS、CoRL等)发表过论文者优先。 技术方向加分项(满足至少一个方向): ● 视觉-语言-动作方向:熟悉 Vision-Language Pre-training、具身智能(Embodied AI)、模仿学习、多模态决策系统等,有实际部署经验加分; ● 空间计算方向:熟悉 SLAM(视觉/激光/多传感器融合)、三维重建(3DGS、NeRF、Mesh)、点云处理、几何优化等; ● 强化学习方向:熟悉深度强化学习(GRPO、DQN、A3C、PPO、SAC等)、多智能体RL等,有Isaac、Mujoco等仿真环境开发经验加分; 我们提供: ● 与世界一流AI科学家和工程师共事的机会; ● 参与高德地图核心产品和技术演进,影响亿万用户; ● 宽广的技术成长空间与自由探索氛围; ● 具有竞争力的薪酬福利体系(薪资+股票+绩效奖金+弹性工作)
工作职责
我们正在寻找在具身智能VLA(视觉-语言-动作)、空间计算(重建、SLAM等)及强化学习领域有深厚积累的算法同学,加入高德地图视觉技术中心。你将参与构建下一代地图中的感知、理解与决策系统,推动具身导航、AR/VR、场景建模等前沿技术的研发与落地。 如果你热衷于用AI改变人们出行方式,渴望在真实世界大规模数据上验证算法能力,欢迎加入我们! 岗位职责: ● 负责视觉语言动作(VLA)的具身智能模型和视觉语言模型(VLM)的研发,提升具身agent的空间理解和行动决策能力; ● 推进空间计算相关技术(如SLAM、三维重建、点云处理、姿态估计等)在下一代地图、虚拟现实等场景的应用; ● 探索强化学习在多模态大模型的后训练中的应用,提升具身/空间智能的能力天花板; ● 跟踪国际前沿技术发展,持续推动技术创新,并落实到实际应用中; ● 与工程团队紧密协作,完成从算法研发到系统部署的全流程闭环。
我们正在寻找在具身智能VLA(视觉-语言-动作)、空间计算(重建、SLAM等)及强化学习领域有深厚积累的算法同学,加入高德地图视觉技术中心。你将参与构建下一代地图中的感知、理解与决策系统,推动具身导航、AR/VR、场景建模等前沿技术的研发与落地。 如果你热衷于用AI改变人们出行方式,渴望在真实世界大规模数据上验证算法能力,欢迎加入我们! 岗位职责: ● 负责视觉语言动作(VLA)的具身智能模型和视觉语言模型(VLM)的研发,提升具身agent的空间理解和行动决策能力; ● 推进空间计算相关技术(如SLAM、三维重建、点云处理、姿态估计等)在下一代地图、虚拟现实等场景的应用; ● 探索强化学习在多模态大模型的后训练中的应用,提升具身/空间智能的能力天花板; ● 跟踪国际前沿技术发展,持续推动技术创新,并落实到实际应用中; ● 与工程团队紧密协作,完成从算法研发到系统部署的全流程闭环。
1、进行端到端自动驾驶大模型算法架构设计:研发基于多模态感知(激光雷达、摄像头等)的端到端自动驾驶模型,实现感知-决策-规划端到端建模方法的算法创新和车端应用; 2、探索VLM和VLA方法在端到端自动驾驶场景中的算法创新和应用,建立数据标准,提升自动驾驶困难场景的场景理解和决策规划能力; 3、设计面向端到端自动驾驶的强化学习算法(如多智能体RL、分层RL、逆强化学习),解决长尾场景决策难题。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。