高德地图高德-具身多模态动作生成式大模型算法工程师(人机交互方向)-具身业务部
任职要求
● 硕士及以上学历,计算机科学、人工智能、自然语言处理、机器人学或相关专业; ● 具备VLA意图理解、动作预测等相关项目或研究经验; ● 熟悉扩散模型、GPT等生成式大模型,有大模型训练、3D内容生成、动作生成或数字人等领域的研发经验者优先; ● 了解动作重定向…
工作职责
负责多模态人机动作交互大模型算法的研发,推动机器人交互技术的创新与落地,具体包括但不限于: ● 研究多模态智能体、推理与规划等前沿方向,开发多模态意图理解与动作预测算法,使机器人在交互中能自主动作决策并执行; ● 构建通用动作生成模型:基于语音、视觉、语境等多模态输入,研发高自然度、高智能性的机器人物理可执行动作生成算法; ● 优化动作控制性能:设计动作生成与执行控制的联合优化算法,提升动作的流畅性、精准性与实时响应能力。
1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。
1. 负责机器人操作世界模型算法研发,包括视频预测、状态建模、动作生成、潜在空间建模等核心技术; 2. 参与 VLA 模型训练与优化,探索世界模型在长时序操作、多任务泛化与复杂场景推理中的应用; 3. 参与类似 DreamZero、FastWAM 等生成式机器人算法方向研究,探索基于视频生成与未来状态预测的机器人动作规划与控制能力; 4. 构建机器人操作评估与数据闭环系统,推动模型在真实机器人上的部署验证与 sim2real 泛化; 5. 跟踪世界模型、机器人基础模型、强化学习与多模态生成模型等前沿方向,完成相关算法复现、优化与创新。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 岗位介绍: 我们正在寻找一位才华横溢的生成式AI/世界模型算法工程师加入我们的团队,共同探索人工智能的前沿领域,构建下一代智能系统的核心技术。如果你对生成式AI/世界模型有深入的理解和研究,渴望在这一领域大展身手,那么请加入我们! 主要职责: 1. 3D静态生成:负责3D物体/场景生成算法的优化,探索高效的3D生成表示方式,并改进扩散或自回归生成模型,提升单图到3D物体或场景生成的精度与稳定性; 2. 3D动态生成:基于扩散/自回归视频生成基模,并引入3D场景表征和隐式动作表征,实现长视界一致、并且可交互的动态视频生成; 3. 世界模型构建:参与世界模型的前沿技术探索,包括环境建模、状态预测、决策规划等方面,以构建能够准确模拟和理解复杂环境的智能模型。探索空间智能的统一建模范式,包括未来状态预测以及未来动作预测,并构建反馈机制,最终实现自主学习; 4. 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展,保持公司在该领域的技术领先地位。