
哈啰数据开发(偏特征)
任职要求
**硬技能要求**: * 本科及以上学历,计算机、软件工程或相关专业,3年以上数据开发经验。 * **精通SQL**,拥有出色的性能调优能力,熟悉至少一种主流数据库(如MySQL, PostgreSQL)和**大数据生态组件(如Hive, Spark, Hadoop, Kafka等)**。 * 至少熟练掌握 **Java/Python/Scala** 其中一门编程语言,具备扎实的编码能力和良好的工程习惯。 * 具备数据仓库建模理论知识和实际项目经验,理解维度建模、数据分层思想。 * 熟悉Linux开发环境,掌握常用脚本语言(Shell/Python)。 * 有使用任务调度工…
工作职责
1. **算法数据基础设施构建**:
* 设计、开发并维护面向算法训练与推理的离线/实时数据管道,确保数据的时效性、准确性和一致性。
* 参与构建和优化算法团队专属的数据仓库/数据湖,设计合理的分层(ODS, DWD, DWS, ADS)模型,满足特征工程、样本构建、模型评估等多维数据需求。
* 开发和维护高效的数据ETL/ELT流程,处理海量结构化与非结构化数据。
2. **特征平台与数据服务支持**:
* 与算法工程师紧密协作,将特征计算逻辑产品化、平台化,开发和维护特征平台,支持特征的统一管理、计算、存储和在线服务。
* 提供稳定、低延迟的数据服务API,为在线实时预测系统提供特征数据。
* 构建高效的训练样本生产流程,支持大规模分布式样本拼接与生成。
3. **数据治理与质量保障**:
* 建立数据质量监控体系,定义和追踪关键数据质量指标,及时发现并修复数据问题,为算法实验提供可信的数据基础。
* 负责数据血缘追踪、元数据管理和数据字典维护,提升团队数据协作效率。
4. **性能优化与创新**:
* 持续优化数据作业和查询性能,降低计算与存储成本。
* 探索和应用新的数据技术栈(如Flink, Iceberg, Hudi等),以提升数据处理的效率和能力。
1. 负责EIS算法开发与优化,设计并实现基于IMU传感器和视觉特征(如光流)的多传感器融合的视频防抖算法。优化运动估计模型和帧间补偿算法(如网格变形、自适应裁剪),解决复杂场景下的防抖问题(如剧烈运动、低光照、运动模糊)。 2. 负责IMU数据层面的相关工作,设计视频防抖算法的产线标定方案(GYRO-摄像头标定)、设计IMU数据的预处理方案(零偏、温漂等)。 3. 与硬件加速团队紧密合作,确保算法能够在目标硬件平台上高效运行,并满足功耗、延迟、内存等方面的严格要求。 4. 针对技术预研与创新方面,及时跟踪学术界和工业界最新进展(如基于深度学习的EIS)。

1. 负责数据仓库架构设计、建模和ETL开发,构建可扩展的数据仓库和分析解决方案; 2. 负责对数据仓库的性能和效率优化; 3. 负责建立数据分析模型,进行数据监控和统计,发现数据的模式与规律; 4. 负责公司内部数据指标的梳理,沉淀数据仓库口径,及时维护数据口径内容; 5. 负责数据报表、数据应用开发; 6. 通过知识沉淀提炼运维流程与方法,负责数据仓库运行中的问题处理并持续优化;

1. 负责公司数据闭环体系搭建,处理亿级数据量,为端到端模型训练提供数据产线支持; 2. 主导数据闭环工具链研发,加速自动驾驶模型迭代,职责涉及以下方向: 2.1 数据筛选器:开发车端热更新筛选器和影子模式,设计并实现触发逻辑,打通云端配置到车端链路; 2.2 数据录制及上云:车端数据录制,包括原始数据封装、压缩、加偏、脱敏、加密等,打通车云上传链路; 2.3 云端数据处理:对于标注数据、场景数据,开发数据清洗、编解码、自动打标、高价值数据挖掘、数据检索、评测等自动化工具,适配自动驾驶模型数据pipeline. 3. 基于云资源和图商合规云体系的数据闭环:基于云上资源构建标注、训练平台,并完成智驾算法的适配对接和数据pipeline开发。