百度自动驾驶数据仓库高级开发工程师(J72235)
任职要求
-计算机科学、信息技术或相关专业本科及以上学历,具有3年以上数据仓库开发或相关领域的工作经验 -熟练掌握数据仓库相关技术和工具,如Mysql,mongodb,ES,Doris,AFS等 -熟悉c++/python/go等开发语言,有良好的编程习惯 -有大规模文件存储和模型训练等相关技术背景优先 -具备良好的沟通能力和团队合作精神,能够与其他团队成员有效协作
工作职责
-设计并构建高效的自动驾驶数据仓库架构,包括数据模型设计、ETL过程开发、数据服务构建等 -设计实现高效的数据存储引擎,确保PB级大规模数据的高效存储,快速加载,并确保数据的准确性和一致性 -负责输出不同业务模型训练、评测数据高效存取方案,有效支持自动驾驶模型训练 -与数据科学家和数据分析师合作,根据业务需求进行数据仓库的扩展和定制 -负责推动各类自动驾驶业务流接入数据仓库,帮助业务提升效率
-负责自动驾驶相关数据分析工作,协同建设数据仓库+BI高效分析体系 -理解指标相关业务场景、产品及策略,支撑自动驾驶车辆多阶段的数据分析、预警&报警&故障管理 -根据不同业务场景,设计专项业务指标,建立和完善日常业务报告体系,为业务决策和改进方向提供数据支持 -对于策略上线,进行科学的实验设计与结果评估,并给出明确的业务决策建议
1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理; 2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率; 3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化; 4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。

工作地点:上海、广州、北京 团队目标: 我们致力于构建世界一流的自动驾驶数据闭环体系。您将成为团队中的“数据科学家”与“价值度量官”,通过深度洞察和数据驱动,量化数据闭环各环节的效能与质量,确保我们交付的每一份数据都能高效、精准地驱动算法进化,成为公司核心竞争力的基石。 1、数据闭环效能度量体系设计: 构建并持续优化数据从“采集需求提出”到“算法消费”的全链路核心指标体系。 设计科学、可量化的指标,如:端到端交付周期、数据质量有效率、场景覆盖度、数据利用率、算法迭代收益关联度等。 深入业务,理解算法迭代流程,建立数据服务对算法效能提升的价值归因模型。 2、深度洞察与根因分析: 基于指标体系,主动发现数据闭环中的效率瓶颈、质量洼地与资源浪费。 运用统计学方法和数据分析工具,进行深度根因分析。例如:交付延迟是源于采集困难、标注堆积,还是需求变更?质量下降是特定场景、特定供应商还是标注标准模糊导致? 对数据的真实性和有效性具有敏锐的洞察力,能识别并排查数据异常、逻辑错误及潜在的“数据造假”行为。 3、数据产品与看板驱动决策: 主导开发和维护直观、实时的数据驾驶舱与可视化看板,为TPM、运营、执行及管理层提供决策支持。 将分析结论产品化,推动建立自动化监控预警机制(如:交付周期超时预警、质量波动预警)。 4、驱动业务优化: 与数据策略、运营、执行团队紧密协作,将数据分析结论转化为具体的流程优化建议、资源调配方案和质量改进措施。 通过数据反馈,驱动采集策略、标注标准、工具链的持续迭代。