
地平线视觉深度学习算法实习生(VLA静态要素理解方向)
任职要求
1、计算机视觉、模式识别、机器学习、电子信息、机器人等相关专业的硕士/博士在读; 2、熟悉主流深度学习算法,精通一/多个领域,包括但不限于目标检测、分割、跟踪、多任务学习、立体视觉等领域,有计算机视觉、模式识别领域顶会;(CVPR/ICCV/ECCV/ICML/NeurIPS)或顶刊(TPAMI/IJCV/TIP)作品者优先;顶级学术…
工作职责
1、探索vla模型在复杂路口的场景理解能力以及对下游决策模块的提升; 2、负责核心算法或模型的原创设计以及工程化落地,如模型优化、评测体系化构建、case迭代等; 3、掌握数据挖掘、标注、训练、部署及badcase回归等闭环链路,并伴随业务开展持续优化; 4、掌握通过数据闭环持续迭代模型的能力;
1. VLA/VLN算法开发:研究并实现Vision-Language-Action (VLA) / Vision-Language Navigation(VLN)算法,使机器人能够根据自然语言指令以及当前场景进行自主移动; 2. 多模态融合:开发视觉、语言、地图等多模态信息融合模块,提升导航决策的准确性; 3. 场景理解:实现基于视觉和语言的场景语义理解,支持复杂环境下的目标定位与路径规划; 4. 模型训练与优化:负责VLA/VLN模型的训练、调优及推理性能优化; 5. 数据与评测:参与导航数据集构建、评测指标设计及Benchmark开发。
1.负责理想汽车VLA模型方法研发和工程落地,包括但不限于视觉多模态理解、高级指令拆解及多模态policy预测; 2.负责设计高性能上限,具备量产能力的VLA模型算法,对包括但不限于diffusion、VLM等模型算法有实操经验; 3.开发高效离线训练框架,以及可实时运行的在线推理框架,优化模型推理性能,研发模型部署工具链和优化工具; 4.建立云端数据感知/决策联合标注Pipeline、数据挖掘机制以及难样本分析等工具链,通过数据闭环持续选代模型能力。

1、模型复现与实现:复现当前主流的开源VLA模型(如GR00T/ π0.5/SmoIVLA/WALL-OSS等),确保算法正确性和性能。 2、系统集成与测试:将VLA模型集成到公司机器人平台,设计并执行测试方案,评估模型在真实环境中的感知、推理与执行能力。 3、算法优化与创新:针对机器人具体应用场景,对VLA模型进行微调、优化及创新,提升其在复杂环境下的适应性和鲁棒性。 4、多模态数据处理:处理视觉、语言和动作数据,构建和优化训练数据集,支持模型的训练和评估。 5、技术跟踪与报告:跟踪VLA领域的最新研究进展,撰写技术报告,并参与团队技术讨论与分享。