
哈啰智驾数据算法工程师(数据闭环)-【自动驾驶】
任职要求
1、本科及以上学历,计算机、软件工程、自动化、电子信息等理工科专业; 2、2 年及以上自动驾驶数据体系相关经验,有大厂 / 独角兽企业数据工厂搭建、量产项目经验者优先; 3、精通 Python、C++,熟悉 Linux 操作系统(常用指令、Shell 脚本),具备良好编程习惯(代码注释、Git 版本管理、CI/CD 流程); 4、掌握常见主流传感器数据处理:LiDAR(点云去噪 / 拼接 / 动静态补偿)、Camera(畸变校正 / 图像融合)等,精通 H264/H265/YUV/MJPEG 等编解码方式,有定制数据格式经验(如自定义传感器数据封装格式、私有标注格式)者加分; 5、熟悉自动驾驶中间件:ROS2(节点通信、Msg/Srv 定义、参数服务器配置)、DDS(QoS 策略优化); 6、具备强问题解决能力,能快速定位数据处理、工具链运行中的技术故障; 7、良好的跨团队沟通能力(能清晰对齐需求、推动协作),踏实靠谱,可承受项目紧进度压力。 加分项: 1、熟悉云原生技术(Docker/K8s),能将数据工具链容器化部署; 2、有大模型在数据挖掘中的应用经验(如用 QwenVL2.5系列模型做场景分类)。
工作职责
1、数据闭环体系搭建与落地:负责自动驾驶全链路数据闭环体系设计与搭建,日均处理亿级传感器原始数据及标注数据,保障数据从采集、处理到模型训练的端到端流转,支撑感知、决策规划等端到端模型的高效训练; 2、数据闭环工具链研发: 2.1 云端数据处理 pipeline 开发: •针对标注数据、场景数据,设计并落地数据清洗(去噪、去重、异常过滤)、解析、切片、抽帧、送标(对接标注平台)的全流程自动化 pipeline; •优化 pipeline 吞吐量与延迟,目标支撑日均 10 万 + 场景数据处理,服务算法团队数据生产需求; •推动工具链部署落地,解决线上运行故障(如数据阻塞、接口兼容问题),保障工具链可用性。 2.2 高价值场景数据挖掘体系建设: •搭建 “规则 + 大模型” 双驱动的数据挖掘产线:针对规则挖掘,设计接入多种传感器、定位、感知、底盘、车身信号并优化规则策略;针对大模型挖掘任务,完成数据方案制定、模型微调、loss优化、模型评测等; •与算法团队协作迭代挖掘策略,提升 corner case 召回率(目标≥85%)。
1、负责自动驾驶端到端模型数据闭环研发工作,制定数据挖掘方案,数据标签自动化,保证数据质量和闭环效果,为线上模型迭代提供数据支持; 2、负责数据场景和行为理解自动标注,通过数据驱动的方式挖掘自动驾驶算法需要关注的关键场景和高价值数据,参与算法迭代; 3、基于海量自动驾驶场景和行为,科学地管理自动驾驶用户数据和已挖掘的算法问题,研究和设计自动驾驶各算法高效发现问题和利用数据的方案; 4、负责自动驾驶数据闭环相关的策略研发工作,制定项目挖掘方案,计划并实施,保证数据质量和闭环效果; 5、综合车端的感知、规控等信息,利用大数据技术对各种corner case 进行识别和自动化归因算法开发; 6. 负责模型微调和强化学习数据分布和挖掘;

1、负责训练评测数据特征仓库建设、相关指标实现; 2、 负责训练评测数据交付,保证数据质量; 3、 负责端到端智驾数据产线基础工具链建设、训练评测数据业务流程建设;
1、负责自动驾驶数据闭环相关的平台研发工作,制定数据挖掘方案,计划并实施,保证数据质量和闭环效果,为线上模型迭代提供数据支持; 2、负责数据闭环的标定平台、模型部署平台研发工作,通过数据及算法挖掘传感器标定异常,提前发现问题以及风险前置; 3、基于海量自动驾驶场景和行为,科学地管理自动驾驶用户数据和已挖掘的算法问题,研究和设计自动驾驶各算法高效发现问题和利用数据的方案。与算法研发工程师合作,通过数据驱动的方式挖掘自动驾驶算法需要关注的关键场景和高价值数据,参与算法迭代; 4、负责自动驾驶数据闭环相关的策略研发工作,制定项目挖掘方案,计划并实施,保证数据质量和闭环效果。设计和开发挖掘策略/算法/工具,为感知算法任务提供研发迭代需要的数据,支持数据转化为驾驶能力; 5、综合车端的感知、规控、地图、车辆状态等信息,利用大数据技术(如 Flink、Spark)对各种异常 case 进行识别和自动化归因算法开发; 6.负责推进自动驾驶用户数据闭环平台构建、优化,确保闭环科学地、稳定地、高效地运转。基于数据湖技术(如 Hadoop、HDFS、Delta Lake 等)构建高效的数据存储、处理和分析平台。

1. 负责公司数据闭环体系搭建,处理亿级数据量,为端到端模型训练提供数据产线支持; 2. 主导数据闭环工具链研发,加速自动驾驶模型迭代,职责涉及以下方向: 2.1 数据筛选器:开发车端热更新筛选器和影子模式,设计并实现触发逻辑,打通云端配置到车端链路; 2.2 数据录制及上云:车端数据录制,包括原始数据封装、压缩、加偏、脱敏、加密等,打通车云上传链路; 2.3 云端数据处理:对于标注数据、场景数据,开发数据清洗、编解码、自动打标、高价值数据挖掘、数据检索、评测等自动化工具,适配自动驾驶模型数据pipeline. 3. 基于云资源和图商合规云体系的数据闭环:基于云上资源构建标注、训练平台,并完成智驾算法的适配对接和数据pipeline开发。