小鹏汽车VLM/VLA 大模型算法工程师
社招全职地点:深圳状态:招聘
任职要求
- 计算机、人工智能、自动化等相关专业硕士及以上学历; - 具备扎实的深度学习基础,熟悉 Transformer、BERT、ViT、CLIP、BLIP 等主流视觉-语言模型架构; - 有大模型(VLM、LLM)训练/推理优化经验,熟悉其在多模态任务中的应用; - 有 VLA 建模、生成式模型(如diffusion)、多模态强化学习相关项目背景; - 熟练使用 PyTorch、TensorFlow 等深度学习框架,具备良好的工程能力和代码实现能力; - 良好的团队协作与沟通能力,具备快速学习和解决问题的能力。 加分项: - 熟悉机器人感知与控制领域,理解人形机器人操作、导航、交互、动作轨迹预测等基本任务流程; - 有参与实际机器人系统或多模态交互系统开发的项目经验; - 熟悉开源大模型生态(如 LLaVA, Pi0, RT-2, OpenVLA 等)并有实际使用或改进经验; - 具备从零构建多模态系统或算法平台的能力。
工作职责
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
包括英文材料
学历+
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
BERT+
https://www.youtube.com/watch?v=xI0HHN5XKDo
Understand the BERT Transformer in and out.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
相关职位
社招A136734
1. 参与研发自动驾驶云端VLM/VLA大模型,服务于数据挖掘、数据标注、算法评测等业务需求; 2. 跟踪最新的自动驾驶、具身智能相关前沿技术,并进行技术调研和原型验证; 3. 撰写高水平专利/论文。
更新于 2024-10-10
校招
- 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
更新于 2025-07-17
校招
1. 结合最新 VLM/VLA 技术,设计自驾 VLM/VLA 云端大模型技术路线; 2. 针对高优场景及控车预测任务,设计模型训练迭代计划; 3. 交付满足评测指标的云端模型。 【课题名称】 云端 VLM/VLA 多模态大模型 【课题内容】 面向自驾场景理解及控车 Action预测任务,构建并优化云端 VLM/VLA 大模型,提升识别及预测准确率。
更新于 2025-06-26