logo of xpeng

小鹏汽车【26校招】大数据开发工程师

校招全职地点:广州状态:招聘

任职要求


必需项:
- 掌握SQL与至少一种编程语言(Python/Java/Scala);
- 理解数据库基本原理(索引/事务/数据分区);
- 熟悉Linux开发环境与脚本编写;
- 理解机器学习基本概念(监督学习/表征学习/评估指标)。
加分项:
- 了解Hadoop生态,包括HadoopHiveSparkESKafkaDorisFlink等;
- 有数据仓库建模或ETL开发项目经验(课设/实习/竞赛);
- 熟悉列式存储(Parquet/ORC)或MPP数据库;
- 了解向量数据库原理(近似最近邻/HNSW算法);
- 熟悉多模态表征学习(CLIP/BLIP等模型数据处理经验);
- 掌握深度学习框架生态(PyTorch分布式训练/TensorRT推理优化);
- 有LangChain/LLamaIndex等AI编排工具实践者优先;
- 对自动驾驶数据特性有认知者优先。

工作职责


1. 自动驾驶数据建模
  - 设计多源异构数据的数仓分层模型(ODS/DWD/DWS/ADS),支撑感知、预测等算法训练;
  - 设计支持相似性检索的数仓分层(ADS层集成VectorDB特性);
  - 构建数据血缘与元数据管理体系,保障数据可追溯性;
  - 构建多模态数据的统一向量化标准(图像/点云/文本的Embedding规范)。
2. 大规模数据处理开发
  - 开发高可靠ETL流程,处理车载传感器原始数据(摄像头/LiDAR/GPS等);
  - 基于Spark/Flink优化数据清洗、转换、聚合任务,提升云端处理效能;
  - 开发多模态Embedding流水线(CV/NLP模型的分布式特征提取);
  - 基于VLM(视觉语言模型)​自动生成数据标签​(替代人工标注);
  - 构建驾驶场景语义索引系统​(支持“极端天气”“危险变道”等语义检索)。
3. 分析平台建设
  - 搭建数据湖仓一体架构(Paimon/Iceberg + Doris/StarRocks);
  - 搭建海量特征向量数据库(Milvus/Pinecone/自研引擎);
  - 开发BI可视化看板,监控数据质量及自动驾驶关键指标(生产折损率,感知准确率、干预率等);
  - 开发多模态检索接口(如根据文本描述搜索关联驾驶场景视频)。
4. 效率优化
  - 持续优化数据存储成本与计算性能(分区策略/压缩算法/计算资源调度);
  - 探索弹性伸缩,流批一体,存算分离等架构在实时数据处理场景的应用。
包括英文材料
SQL+
Python+
Java+
Scala+
Linux+
脚本+
机器学习+
Hadoop+
Hive+
Spark+
ElasticSearch+
Kafka+
Doris+
数据仓库+
ETL+
Parquet+
算法+
深度学习+
PyTorch+
TensorRT+
LangChain+
LlamaIndex+
自动驾驶+
相关职位

logo of xpeng
校招

1、参与数据需求的分析,开发及交付工作,协助客户优化业务,提升效率,驱动增长; 2、参与公司统一数仓平台的模型设计, 研发及优化工作,助力企业数据价值挖掘与数据资产变现; 3、落实公司数据治理的相关流程与规范要求,为平台数据产出及时性、准确性、一致性提供支持与保障。

更新于 2025-07-31
logo of shouqianba
校招研发

1.负责业务数据建模与数据仓库任务开发,搭建贴合业务场景的数据架构,支撑数据高效流转与深度应用; 2.主导数据治理体系构建与指标口径标准化管理,保障数据质量可靠、口径统一,为业务决策提供可信数据基础; 3.开展数据集开发工作,基于业务需求提炼高质量数据资产,赋能业务场景快速调用与数据分析应用。

更新于 2025-08-14
logo of xpeng
校招

1. 负责自动驾驶多模态数据的合成技术研发与工程实现,构建高质量、多样化的仿真与合成数据,提升训练数据的覆盖场景丰富度与边界案例覆盖率,满足端到端自动驾驶模型的训练需求; 2. 深入分析自动驾驶训练数据的特征与分布规律,运用统计建模、机器学习与因果推理方法挖掘数据中的潜在问题(如样本偏差、长尾分布、标签错误、对抗样本等); 3. 研究并开发面向自动驾驶场景的高效自动标签算法,基于规则算法和大模型数据挖掘方法,提升为大模型pretrain,sft,RL阶段提供高质量数据; 4. 构建端到端的数据质量评估与过滤体系,设计适用于自动驾驶任务的数据质量指标(如场景完整性、数据分布合理性、时序一致性、合规性等),开发自动化检测工具链,对标签数据、合成数据开展模型训练,提升模型在安全性,效率,合规,安心感等方面的表现; 5. 持续跟踪自动驾驶与大模型的前沿数据技术,推动数据合成、自动标注、质量评估等核心算法在实际工程系统中的部署与落地。

更新于 2025-07-01
logo of digitalchina
校招

1. 基于业务场景设计数据分析模型(如用户画像、运营分析、风险预警),输出数据洞察报告。 2.开发数据挖掘与机器学习算法(如分类、聚类、预测模型),支持业务智能化决策。 3. 参与数据清洗、特征工程、模型训练与调优,推动算法落地到生产环境。 4.探索前沿技术(如AIGC、图计算)在业务场景中的应用可能性。

更新于 2025-09-23