高德地图高德-具身多模态动作生成式大模型算法工程师(人机交互方向)-具身业务部
任职要求
● 硕士及以上学历,计算机科学、人工智能、自然语言处理、机器人学或相关专业; ● 具备VLA意图理解、动作预测等相关项目或研究经验; ● 熟悉扩散模型、GPT等生成式大模型,有大模型训练、3D内容生成、动作生成或数字人等领域的研发经验者优先; ● 了解动作重定向…
工作职责
负责多模态人机动作交互大模型算法的研发,推动机器人交互技术的创新与落地,具体包括但不限于: ● 研究多模态智能体、推理与规划等前沿方向,开发多模态意图理解与动作预测算法,使机器人在交互中能自主动作决策并执行; ● 构建通用动作生成模型:基于语音、视觉、语境等多模态输入,研发高自然度、高智能性的机器人物理可执行动作生成算法; ● 优化动作控制性能:设计动作生成与执行控制的联合优化算法,提升动作的流畅性、精准性与实时响应能力。
1、负责机器人多模态大模型的开发,提升机器人对物理世界和人类语言的理解能力,以解决通用场景下的多任务操作问题; 2、优化模型框架和算法组件,利用视觉,语音,本体感知等多模态信息实现在不同应用场景下的功能泛化和长序列动作; 3、深度参与数据构建、模型训练和评测部署,支持模型算法在机器人控制系统中的集成,确保算法的实时性和稳定性; 4、结合生成式AI与多模态技术,探索机器人世界模型在实际场景的落地与应用潜力;
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
1、主导具身智能大模型的核心算法研发,包括多模态感知(视觉、语言、动作)、强化学习策略优化、世界模型构建等方向; 2、研究传统仿真与生成式仿真相结合的数据合成方案,构建机器人及具身智能领域的新型数据范式,推动合成数据在训练与真实场景中的应用; 3、跟踪学术界与工业界最新进展(如VLA、具身智能等),保持技术领先性快速验证关键技术并推动团队技术迭代; 4、推动模型在机器人场景的落地,解决实际应用中的挑战。