百度感知数据产线工程师(J85802)
-负责数据自动标注产线工程和生产交付,包括不局限于: -产线标注算法集成和发版 -工程框架研发和维护 -标注算法性能热点测试、准入和优化(内存,时延等) -生产任务全流程维护, 处理产线异常
1、参与自动驾驶系统中多模态大模型算法的研究、开发与优化,包括但不限于世界模型、端到端感知大模型、VLA大模型、多模态视觉语言大模型、离线数据算法大模型等方面的应用; 2、负责设计实现不同领域应用的多模态大模型架构,对模型进行迭代优化,以车端模型/数据产线模型量产为主要目标; 3、设计和实现多模态大模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性; 4、针对多模态大模型模型进行车端/云端部署,能够让模型在大规模量产场景下高效运行,产生业务价值; 5、针对多模态大模型进行训练效率优化,实现训练提效。

1、数据闭环体系搭建与落地:负责自动驾驶全链路数据闭环体系设计与搭建,日均处理亿级传感器原始数据及标注数据,保障数据从采集、处理到模型训练的端到端流转,支撑感知、决策规划等端到端模型的高效训练; 2、数据闭环工具链研发: 2.1 云端数据处理 pipeline 开发: •针对标注数据、场景数据,设计并落地数据清洗(去噪、去重、异常过滤)、解析、切片、抽帧、送标(对接标注平台)的全流程自动化 pipeline; •优化 pipeline 吞吐量与延迟,目标支撑日均 10 万 + 场景数据处理,服务算法团队数据生产需求; •推动工具链部署落地,解决线上运行故障(如数据阻塞、接口兼容问题),保障工具链可用性。 2.2 高价值场景数据挖掘体系建设: •搭建 “规则 + 大模型” 双驱动的数据挖掘产线:针对规则挖掘,设计接入多种传感器、定位、感知、底盘、车身信号并优化规则策略;针对大模型挖掘任务,完成数据方案制定、模型微调、loss优化、模型评测等; •与算法团队协作迭代挖掘策略,提升 corner case 召回率(目标≥85%)。