小鹏汽车多模态大模型算法工程师(人形机器人方向)
任职要求
1、计算机科学、人工智能、自然语言处理等相关领域的硕士,博士优先,精通Python编程语言,熟悉TensorFlow、PyTorch等深度学习框架; 2、熟悉Transformer、BERT、GPT等模型,熟悉预训练和后训练流程,具有相关的工作经验,有实际的大模型训练和优化经验; 3、有ACT、MT-ACT、RT1、RT2、Diffusion Policy等算法相关研究背景经验者优先; 4、在相关领域有影响力的Paper,有互联网或科技公司高阶技术岗位任职经历者优先。 4、具有良好的团队合作能力和沟通能力。 加分项: 1. 熟悉强化学习算法; 2. 在ICML、ICLR、CVPR、RSS、ICRA等顶会上发表过相关论文。
工作职责
1. 开发通用型具身算法并应用于人形机器人场景任务,具备物体泛化、任务泛化、场景泛化能力; 2. 研究多模态具身大模型,具备视觉、触觉、语言感知和决策能力,控制机器人完成开放世界的物理交互;
1. 开发通用型具身算法并应用于人形机器人场景任务,具备物体泛化、任务泛化、场景泛化能力; 2. 研究多模态具身大模型,具备视觉、触觉、语言感知和决策能力,控制机器人完成开放世界的物理交互;
- 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。