
哈啰预测及端到端算法工程师-【自动驾驶】
任职要求
1. 本科及以上学历,专业方向包括计算机、软件、自动化、模式识别等理工科,工作经验不小于2年; 2. 具备较强的编程能力,精通Python及C++语言,熟悉Docker容器化部署,有良好的编程习惯和标准化的代码风格; 3. 熟悉模型开发的基础流程体系,有样本生成、数据挖掘、模型训练、量化部署等全流程体系的开发经验; 4. 熟悉VectorNet、DenseTNT、QCNet等主流的预测/端到…
工作职责
1. 预测及端到端模型的选型、设计、训练和优化,并在车端SoC上部署,达到效率和一致性等要求; 2. 构建数据标注和评测流程,与工具链部门共同实现目标数据的挖掘及清洗,并基于模型表现对数据进行调整、配比等操作; 3. 运用深度学习、强化学习等技术,优化模型结构等,提高模型在复杂场景下的效果; 4. 利用数据增广、迁移学习和对比学习等方法,提升数据利用效率,优化模型泛化能力。
1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。
1. 设计适用于自动驾驶任务的Diffusion-based行为生成模型,涵盖轨迹预测、控制输出、长时规规划; 2. 研究基于图像和高维环境语义输入的扩散过程,支持条件生成与多模态控制分布建模; 3. 推动该方向模型从仿真到实车的部署,包括实时性优化、鲁棒性评估与反馈机制构建。 【课题名称】 Diffusion-based Nueral Planner 【课题内容】 探索扩散生成模型在端到端自动驾驶规划中的泛化能力和多模态决策潜力。以感知输入(图像、BEV等)直接生成控制信号(steering, acceleration),或隐式轨迹规划中间表示,构建具备不确定性建模、多样性采样和高分辨率行为预测能力的决策系统。参考如DiffPlan、MotionDiffuser、Wayformer+Diffusion等工作,推动视觉到控制的生成式范式演进。
1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。
1. 设计适用于自动驾驶任务的Diffusion-based行为生成模型,涵盖轨迹预测、控制输出、长时规规划; 2. 研究基于图像和高维环境语义输入的扩散过程,支持条件生成与多模态控制分布建模; 3. 推动该方向模型从仿真到实车的部署,包括实时性优化、鲁棒性评估与反馈机制构建。 【课题名称】 Diffusion-based Nueral Planner 【课题内容】 探索扩散生成模型在端到端自动驾驶规划中的泛化能力和多模态决策潜力。以感知输入(图像、BEV等)直接生成控制信号(steering, acceleration),或隐式轨迹规划中间表示,构建具备不确定性建模、多样性采样和高分辨率行为预测能力的决策系统。参考如DiffPlan、MotionDiffuser、Wayformer+Diffusion等工作,推动视觉到控制的生成式范式演进。