小鹏汽车VLA/VLM大模型算法专家
任职要求
1、熟悉机器人模仿学习、强化学习理论,有相关领域paper或实际落地经验; 2、有VLA(Vision Language Action Model)、VLM、LLM模型训练的实际经验,熟悉DeepSpeed、FSDP、PyTorch…
工作职责
1、负责自动驾驶、机器人领域VLA算法研发。
我们是高德视觉技术中心,专注于以计算机视觉技术为核心的前沿研究与创新应用,致力于打造时空互联网领域的核心技术能力。 我们致力于构建 “真实世界 × 虚拟世界” 的生成式世界模型,引领多模态 AI 赋能智慧出行和日常生活。团队成员参与端到端 3D+视频+语言 大模型的研发,与阿里云算力、十亿级全域图像 / 点云 / 出行数据深度结合,让算法在真实应用中产生即时经济价值与社会影响力。 团队主页:https://github.com/amap-cvlab 岗位职责: 1. 核心算法研发:主导 1B-100B 参数级世界模型 / VLA / VLM 网络的整体方案与关键模块创新; 2. 高效预训练与微调:构建跨模态自监督目标(时序一致性、物理一致性、语言对齐等),并推动 SFT → DPO → RL-HF 全链路落地上线; 3. 跨模态推理与生成:针对 3D 场景、连续视频、语言描述开展对齐、生成与评估实验,推动端到端模型落地。创新3D场景/连续视频/交互策略/语言描述等跨多种模态的端到端理解与生成; 4. 产线落地与性能优化:与地图引擎、自动驾驶、智能导航等业务协同,迭代模型压缩、Edge-Cloud 混合部署、隐私数据训练; 5. 技术沉淀与传播:完成技术调研、实验复现、消融与报告撰写,将成果转化为论文、专利等技术沉淀。
云端大模型算法工程师/专家 1、云端任务大模型算法研发:负责数据驱动的云端大模型算法研发和优化,包括多模态大模型、生成式世界模型等方向;开发基于多传感器数据、时空数据融合的自动标注算法;研发场景与标签的生成式算法技术,探索云端动静态场景重建算法上限,提升自动驾驶感知-拓扑-规划云端一体化能力; 2、云端基座大模型研发:基于海量量产数据,研发无监督/自监督算法,持续提升大模型的语义理解能力和空间感知能力;搭建和优化云端自动化标注产线,将重建/生成的场景真值应用于大规模模型训练和评测; 3、Scaling Law算法研发:负责车云平台一体化大模型算法研发和优化,研发和设计基于数据驱动的感知迭代链路;构建高效的自训练感知pipeline,提高数据闭环效率。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。