小鹏汽车自动驾驶数据生产管理总监
任职要求
1. 6年以上数据生产(采集/标注)团队管理经验,3年以上自动驾驶、智能驾驶、机器人或大模型相关行业背景优先。 2. 有大型项目/团队(30人以上)运营管理、跨团队/跨部门协作经验,具备数据生产质量体系搭建与高效交付经验。 3. 熟悉自动驾驶或AI领域的数据采集、标注流程及质量控制体系,对数据采集与标注平台、工具研发有项目管理或实战经验。 4. 理解主流数据生产工具链与管理系统,具备推动工具研发和自动化提升的能力。 5. 注重细节,具备数据交付质量管控、数据标准制定与流程优化能力。 6. 优秀的组织、协调和领导能力,能激发团队战斗力并带领团队持续进步。 7. 沟通能力强,善于整合内外部资源,有效解决跨团队、跨部门合作中的复杂问题。
工作职责
1. 负责数据采集、数据标注团队的整体管理与日常运营,统筹人员分工、工作计划和绩效考核。 2. 制定并优化数据采集、数据标注的流程、规范和质量标准,确保数据任务高效、准确、按时交付。 3. 结合端到端大模型训练需求,科学制定多源异构数据(视频、传感器、日志等)采集与高质量标注计划,动态分配任务资源。 4. 领导数据采集、数据标注相关的技术平台和工具开发团队,推动平台架构演进与工具链优化,提升生产效率和自动化水平。 5. 负责数据生产全流程的质量管控与风险预警,建立多维度的数据质检与监控体系,持续优化数据交付标准与验收流程。 6. 分析数据采集/标注过程中的异常与瓶颈,及时推动整改、复盘与知识沉淀,确保端到端大模型训练数据的高标准交付。 7. 负责数据采集、数据标注及技术平台团队的组织建设、能力提升和人才梯队打造,营造积极、高效。
1)设计并实现高并发、高可用的数据标注平台后端架构,支持图像、点云、视频等多模态自动驾驶数据的标注需求; 2)搭建标注数据存储与治理系统,保障大规模标注数据(PB级)的安全存储与高效检索; 3)搭建面向自动驾驶大模型的数据生产系统,涵盖数据清洗、增强、合成与标注全流程; 4)构建数据版本管理与回溯系统,实现数据集迭代过程的可追踪性,满足模型训练合规要求;
团队介绍: 小鹏汽车自动驾驶的大数据方向,负责所有自动驾驶数据的云端处理,为自动驾驶业务提供高性能,高质量的数据加工,保证整个数据生产的稳定性,及时性,高可用。 1. 负责自动驾驶大数据多模态(如视频、图像、雷达信号等)湖仓平台的架构设计、开发与建设,包括数据处理、资源调度、算子管理、部署服务等;负责数据采集、清洗、转换和加载(ETL)流程的开发,处理多源异构数据 2. 基于大数据多模态湖仓平台,协助客户处理生产业务中的海量数据,解决疑难问题,支持百亿级自动驾驶感知和全栈数据的快速定位和分析,赋能上层业务发展。 3. 协助设计和优化数据仓库模型,参与数据治理工作(如数据质量核查、元数据管理等) 4. 负责自动驾驶离线和实时数据仓库的构建和性能优化;负责车端信号数据仓库体系和数据指标体系的架构设计与开发,为算法和数据闭环提供框架支持; 5. 调优分布式计算引擎(Spark/Flink/Presto)及存储系统(HDFS/OSS),构建OLAP引擎(Doris/StarRocks),解决海量数据场景下的资源瓶颈。 6. 跟踪Iceberg、Paimon、Flink、Spark、Lance等开源技术演进,主导关键组件二次开发或源码级优化;负责前沿技术的跟踪研究,工具链的选型测试,解决、攻克数据平台的核心技术难题。 7. 建立监控和反馈指标,持续优化改进产品的架构及性能,保证PB级数仓的数据质量和平台稳定性。

1、数据闭环体系搭建与落地:负责自动驾驶全链路数据闭环体系设计与搭建,日均处理亿级传感器原始数据及标注数据,保障数据从采集、处理到模型训练的端到端流转,支撑感知、决策规划等端到端模型的高效训练; 2、数据闭环工具链研发: 2.1 云端数据处理 pipeline 开发: •针对标注数据、场景数据,设计并落地数据清洗(去噪、去重、异常过滤)、解析、切片、抽帧、送标(对接标注平台)的全流程自动化 pipeline; •优化 pipeline 吞吐量与延迟,目标支撑日均 10 万 + 场景数据处理,服务算法团队数据生产需求; •推动工具链部署落地,解决线上运行故障(如数据阻塞、接口兼容问题),保障工具链可用性。 2.2 高价值场景数据挖掘体系建设: •搭建 “规则 + 大模型” 双驱动的数据挖掘产线:针对规则挖掘,设计接入多种传感器、定位、感知、底盘、车身信号并优化规则策略;针对大模型挖掘任务,完成数据方案制定、模型微调、loss优化、模型评测等; •与算法团队协作迭代挖掘策略,提升 corner case 召回率(目标≥85%)。