高德地图高德-具身多模态动作生成式大模型算法工程师(人机交互方向)-具身业务部
任职要求
● 硕士及以上学历,计算机科学、人工智能、自然语言处理、机器人学或相关专业; ● 具备VLA意图理解、动作预测等相关项目或研究经验; ● 熟悉扩散模型、GPT等生成式大模型,有大模型训练、3D内容生成、动作生成或数字人等领域的研发经验者优先; ● 了解动作重定向…
工作职责
负责多模态人机动作交互大模型算法的研发,推动机器人交互技术的创新与落地,具体包括但不限于: ● 研究多模态智能体、推理与规划等前沿方向,开发多模态意图理解与动作预测算法,使机器人在交互中能自主动作决策并执行; ● 构建通用动作生成模型:基于语音、视觉、语境等多模态输入,研发高自然度、高智能性的机器人物理可执行动作生成算法; ● 优化动作控制性能:设计动作生成与执行控制的联合优化算法,提升动作的流畅性、精准性与实时响应能力。
1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。
1、负责机器人多模态大模型的开发,提升机器人对物理世界和人类语言的理解能力,以解决通用场景下的多任务操作问题; 2、优化模型框架和算法组件,利用视觉,语音,本体感知等多模态信息实现在不同应用场景下的功能泛化和长序列动作; 3、深度参与数据构建、模型训练和评测部署,支持模型算法在机器人控制系统中的集成,确保算法的实时性和稳定性; 4、结合生成式AI与多模态技术,探索机器人世界模型在实际场景的落地与应用潜力;
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们在做什么? 高德拥有全中国最庞大、最真实的物理世界视觉数据。我们不只是在做地图,我们正在基于空间智能构建一个能够感知、理解并预测物理规律的“具身基座模型”。 在这里,你将触达数亿级真实街景、轨迹与语义数据,解决从“数字地图”到“通用物理智能”的终极跨越。 岗位核心挑战 具身基座模型 (Embodied Foundation Models): 研发下一代VLA/WAM大模型,突破多模态指令到精准动作映射的瓶颈,实现跨场景的零样本迁移能力。 世界模型 (World Models): 构建基于大规模视频生成的物理世界模拟器,利用生成式AI预测场景演化,为具身智能提供无限的训练“想象空间”。 大模型后训练与强化学习 : 探索GRPO、PPO、SAC等算法在多模态大模型、具身控制上的应用,通过大规模强化学习提升Agent在复杂时空环境下的决策边界。 大规模数据合成与闭环: 利用高德独有的时空数据优势,构建自动化的具身数据生产、评测管线,解决Scaling Law在具身领域的落地难题。 开源影响力与行业基准: 主导或深度参与具身智能开源项目建设。 我们鼓励将核心算法框架、高质量具身数据集或评估基准贡献给开源社区,打造具有行业号召力的开源作品,定义下一代具身智能的技术标准。 为什么加入高德视觉团队? 顶级的“真”数据: 区别于实验室的玩具数据集,我们拥有海量真实室内外场景与空间语义数据,这是训练基座模型最完美的温床。 极致的算力支持: 提供充足的集群资源,让你的Idea不受算力瓶颈束缚。 真实的应用场景: 你的代码将直接驱动真实物理产品,影响数亿用户的出行决策。 极简的技术氛围: 扁平化管理,与世界顶尖研究者共同探索AI的下一站。 加入我们,一起定义物理世界的AI入口!

团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们在做什么? 高德拥有全中国最庞大、最真实的物理世界视觉数据。我们不只是在做地图,我们正在基于空间智能构建一个能够感知、理解并预测物理规律的“具身基座模型”。 在这里,你将触达数亿级真实街景、轨迹与语义数据,解决从“数字地图”到“通用物理智能”的终极跨越。 岗位核心挑战 具身基座模型 (Embodied Foundation Models): 研发下一代VLA/WAM大模型,突破多模态指令到精准动作映射的瓶颈,实现跨场景的零样本迁移能力。 世界模型 (World Models): 构建基于大规模视频生成的物理世界模拟器,利用生成式AI预测场景演化,为具身智能提供无限的训练“想象空间”。 大模型后训练与强化学习 : 探索GRPO、PPO、SAC等算法在多模态大模型、具身控制上的应用,通过大规模强化学习提升Agent在复杂时空环境下的决策边界。 大规模数据合成与闭环: 利用高德独有的时空数据优势,构建自动化的具身数据生产、评测管线,解决Scaling Law在具身领域的落地难题。 开源影响力与行业基准: 主导或深度参与具身智能开源项目建设。 我们鼓励将核心算法框架、高质量具身数据集或评估基准贡献给开源社区,打造具有行业号召力的开源作品,定义下一代具身智能的技术标准。 为什么加入高德视觉团队? 顶级的“真”数据: 区别于实验室的玩具数据集,我们拥有海量真实室内外场景与空间语义数据,这是训练基座模型最完美的温床。 极致的算力支持: 提供充足的集群资源,让你的Idea不受算力瓶颈束缚。 真实的应用场景: 你的代码将直接驱动真实物理产品,影响数亿用户的出行决策。 极简的技术氛围: 扁平化管理,与世界顶尖研究者共同探索AI的下一站。 加入我们,一起定义物理世界的AI入口!