百度多模态感知算法研发工程师(J86690)
任职要求
-计算机、电子、应用数学、自动化等相关专业的硕士及以上学历 -具有良好的机器学习的理论基础,良好的数学基础以及分析解决问题的能力 -熟练掌握C++、Python编程语言,具备Linux下开发能力,具有良好的编程习惯和工程实现能力 -熟悉主流点云、图像深度学习模型方法,在BEV、Occupancy等端到端表达建模方面有一定的实践经验; -了解大语言模型或者视觉语言模型的工作原理、训练方法 -了解常见的自监督、半监督方法及对应的数据方案 -在计算机视觉或机器人相关领域顶级会议或期刊CVPR、ICCV、ICRA、IROS、PAMI等发表论文者优先 -良好的沟通表达能力和团队合作意识
工作职责
-基于摄像头、激光雷达、4D毫米波雷达等多模态传感器设计与研发融合感知模型与算法(包含但不限于:障碍物检测、OCC(Occupancy Network)、场景语义分割、跟踪等任务),提升在复杂场景、极端场景下的感知能力。 -构建覆盖Corner Case的自动化数据采集与标注系统,开发数据质量评估体系,建立数据-模型迭代闭环机制 -通过自监督、弱监督学习提升模型泛化能力,加速数据飞轮,探索VLM、VLA等技术在数据飞轮中的实践与应用 -世界模型研发相关,设计基于多模态传感器的世界模型,为复杂问题解决效果验证、端到端模型验证提供强有力的仿真验证能力与感知能力 -世界模型研发相关,构建为实现世界模型需要的数据闭环与数据飞轮,如数据采集、生成、自动化标注等相关强算法问题解决。
1. 自动驾驶深度学习方向感知算法研发; 2. 研发3D目标检测,车道线/道路拓扑,红绿灯感知模型; 3. 研发视觉BEV感知以及多模态前融合算法; 4. 研发多任务模型优化,模型网络结构优化算法; 5. 跟进前沿算法,研发端到端自动驾驶感知预测one model模型,World Model等算法; 6. 感知多模态融合与多目标跟踪算法技术研发;
自动驾驶: 1、负责自动驾驶动态目标感知算法设计和优化,包括但不限于3D目标检测与跟踪、图像/点云语义分割、物体动静态估计、Radar融合以及相应的数据挖掘与仿真算法; 2、静态感知模块研发,包括但不限于各类静态障碍物检测跟踪、地图元素识别及其矢量化/语义化/拓扑化、可行驶区域/BEV分割/OccupancyNetwork及针对真实世界中OpenVocabulary的众包地图大模型研发; 3、感知基础算法研发,包括但不限于时序多模态等基础感知模块,大规模多模态预训练算法,室外大范围动静态场景重建与编辑技术,基于(可提示)交互式智能标注系统等。
-负责百度视觉感知、多模态理解模型研发,协助改进产品、落地算法应用; -研发方向包括但不限于:视觉感知算法、多模态理解模型、模型压缩轻量化应用等; -负责相关算法技术研发、应用工作; -负责前沿算法的调研和研究。
主要从事物联网(IoT)与人工智能(AI)的跨领域技术研发,聚焦多模态感知与大模型优化在智能家居场景的深度应用,具体方向包括: 1. 多模态融合感知:研发基于视觉、语音、环境传感等多源数据的融合算法,构建高精度环境感知系统,实现对用户行为与空间状态的实时理解; 2. 垂域大模型优化:针对智能家居场景优化大模型架构,开发参数高效微调(如LoRA)与轻量化部署方案,提升模型在边缘设备端的推理效率; 3. 智能决策系统:融合多模态感知与大模型分析能力,构建个性化推荐引擎,实现设备联动自动化与场景化服务(如自适应照明、安防预警等)。 【课题名称】 基于多模态感知的IoT垂域大模型应用 【课题内容】 基于多模态感知融合技术的垂域大模型优化方案,拓展智能家居场景应用,实现环境、语音与视觉数据的协同分析与智能决策。