百度自动驾驶AI基础平台数据仓库工程师(J84322)
任职要求
-计算机相关专业,本科及以上学历,掌握常用算法和数据结构,3年以上工作经验 -熟练掌握Python、C++、Shell等至少一种编程语言和主流数据库技术,熟悉Django、Flask等主流Python框架 -熟练运用容器化技术(如Docker、Kubernetes),对云计算平台的资源管理与调配有实际操作经验 -熟练Mysql、MongoDB、Redis等数据库相关知识及使用场景,了解消息队列的原理和使用 -对大数据系统存储技术有一定了解,具备Elasticsearch、分布式文件存储(如HDFS/NFS)和对象存储(如S3/MinIO)使用开发实践经验 -熟悉自动驾驶数据标注、模型训练流程者优先
工作职责
-深度参与自动驾驶数据流水线开发,构建高可用、易扩展、低延迟的系统服务架构 -参与自动驾驶模型迭代相关的数据仓库、数据处理及车云互联服务开发工作 -设计、开发用户端SDK、API支持自动驾驶数据高效、稳定、高并发低时延地读写 -设计及实现合理的数据生命周期管理策略,保证满足业务数据需求的存储成本控制
-深度参与自动驾驶数据流水线开发,构建高可用、易扩展、低延迟的系统服务架构 -参与自动驾驶模型迭代相关的数据仓库、数据处理及车云互联服务开发工作 -设计、开发用户端SDK、API支持自动驾驶数据高效、稳定、高并发低时延地读写 -设计及实现合理的数据生命周期管理策略,保证满足业务数据需求的存储成本控制
1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理; 2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率; 3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化; 4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。
-基于AWS或微软云服务,搭建数据反馈关键平台,涵盖数据采集、存储、处理、标注、分析及反馈链路 -实现数据闭环自动化,包括触发式数据回传、关键场景挖掘、模型迭代验证等环节 -设计高可用、可扩展的云架构,优化数据存储与计算资源效率 -开发数据质量监控系统,提升数据利用率和算法泛化能力 -负责基于AWS或微软云的自动驾驶仿真平台开发 -负责设计、开发和优化基于AWS云服务的自动驾驶可视化仿真系统架构,支持高并发、低延迟的仿真场景测试 -构建云原生仿真工具链,整合数据管理、场景生成、结果分析等模块,提升仿真效率与可扩展性 -跨团队协作与技术沉淀 -与算法团队紧密合作,确保仿真环境与自动驾驶感知、规划、控制模块的精准对接 -主导技术文档编写与开源工具链研究,推动团队技术标准化