小鹏汽车【26校招】大数据开发工程师

校招全职2025-08-08地点：广州状态：招聘

扫码手机上打开

任职要求

必需项：
- 掌握SQL与至少一种编程语言（Python/Java/Scala）；
- 理解数据库基本原理（索引/事务/数据分区）；
- 熟悉Linux开发环境与脚本编写；
- 理解机器学习基本概念（监督学习/表征学习/评估指标）。
加分项：
- 了解Hadoop生态，包括Hadoop、Hive、Spark、ES、Kafka、Doris、Flink等；
- 有数据仓库建模或ETL开发项目经验…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 自动驾驶数据建模
  - 设计多源异构数据的数仓分层模型（ODS/DWD/DWS/ADS），支撑感知、预测等算法训练；
  - 设计支持相似性检索的数仓分层（ADS层集成VectorDB特性）；
  - 构建数据血缘与元数据管理体系，保障数据可追溯性；
  - 构建多模态数据的统一向量化标准（图像/点云/文本的Embedding规范）。
2. 大规模数据处理开发
  - 开发高可靠ETL流程，处理车载传感器原始数据（摄像头/LiDAR/GPS等）；
  - 基于Spark/Flink优化数据清洗、转换、聚合任务，提升云端处理效能；
  - 开发多模态Embedding流水线（CV/NLP模型的分布式特征提取）；
  - 基于VLM（视觉语言模型）自动生成数据标签（替代人工标注）；
  - 构建驾驶场景语义索引系统（支持“极端天气”“危险变道”等语义检索）。
3. 分析平台建设
  - 搭建数据湖仓一体架构（Paimon/Iceberg + Doris/StarRocks）；
  - 搭建海量特征向量数据库（Milvus/Pinecone/自研引擎）；
  - 开发BI可视化看板，监控数据质量及自动驾驶关键指标（生产折损率，感知准确率、干预率等）；
  - 开发多模态检索接口（如根据文本描述搜索关联驾驶场景视频）。
4. 效率优化
  - 持续优化数据存储成本与计算性能（分区策略/压缩算法/计算资源调度）；
  - 探索弹性伸缩，流批一体，存算分离等架构在实时数据处理场景的应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

SQL+

Python+

Java+

Scala+

Linux+

脚本+

机器学习+

Hadoop+

Hive+

Spark+

ElasticSearch+

Kafka+

还有更多 •••

登录查看完整学习资料

相关职位

【26届校招】大数据开发工程师

校招

1、参与数据需求的分析，开发及交付工作，协助客户优化业务，提升效率，驱动增长； 2、参与公司统一数仓平台的模型设计，研发及优化工作，助力企业数据价值挖掘与数据资产变现； 3、落实公司数据治理的相关流程与规范要求，为平台数据产出及时性、准确性、一致性提供支持与保障。

更新于 2025-07-31广州

【26校招】数仓开发工程师(J11170)

校招研发

1.负责业务数据建模与数据仓库任务开发，搭建贴合业务场景的数据架构，支撑数据高效流转与深度应用； 2.主导数据治理体系构建与指标口径标准化管理，保障数据质量可靠、口径统一，为业务决策提供可信数据基础； 3.开展数据集开发工作，基于业务需求提炼高质量数据资产，赋能业务场景快速调用与数据分析应用。

更新于 2025-08-14上海

大数据平台研发工程师 -26届校招

校招研发

-参与爱奇艺大数据服务体系建设，负责存储、计算、数据分析、机器学习等服务的深入研究与优化，解决大规模分布式场景下的问题与挑战，保障服务稳定、高效； -参与爱奇艺大数据平台的开发工作，提供一站式数据集成、处理、分析等服务，简化数据使用，提升数据开发和分析效率，促进数据发挥更大价值； -持续跟进业界前沿技术，推进大数据服务架构迭代升级，解决海量数据存储、实时分析、数据智能化等需求。

更新于 2025-12-02上海

【26届校招】大模型数据算法工程师

校招

1. 负责自动驾驶多模态数据的合成技术研发与工程实现，构建高质量、多样化的仿真与合成数据，提升训练数据的覆盖场景丰富度与边界案例覆盖率，满足端到端自动驾驶模型的训练需求； 2. 深入分析自动驾驶训练数据的特征与分布规律，运用统计建模、机器学习与因果推理方法挖掘数据中的潜在问题（如样本偏差、长尾分布、标签错误、对抗样本等）； 3. 研究并开发面向自动驾驶场景的高效自动标签算法，基于规则算法和大模型数据挖掘方法，提升为大模型pretrain,sft,RL阶段提供高质量数据； 4. 构建端到端的数据质量评估与过滤体系，设计适用于自动驾驶任务的数据质量指标（如场景完整性、数据分布合理性、时序一致性、合规性等），开发自动化检测工具链，对标签数据、合成数据开展模型训练，提升模型在安全性，效率，合规，安心感等方面的表现； 5. 持续跟踪自动驾驶与大模型的前沿数据技术，推动数据合成、自动标注、质量评估等核心算法在实际工程系统中的部署与落地。

更新于 2025-07-01广州