
地平线VLA算法应用开发实习生
任职要求
1、国内外知名高校在读优秀研究生,有VLA算法研发/应用开发经验者优先; 2、熟练掌握Python编程语言,熟悉PyTorch等深度学习框架,具备良好的代码编写习惯和调试能力; 3、扎实掌握机器学习、深度学习基础理论知识,熟悉常见的神经网络架构,对Tran…
工作职责
VLA(Vision-Language-Action,视觉-语言-动作)模型作为“感知-理解-决策-执行”一体化的多模态智能框架,其核心优势在于打通多模态数据关联、强化闭环反馈效率、降低数据依赖门槛,能从数据采集、处理、训练优化到落地验证的全流程,为数据闭环系统提供关键支撑。 岗位职责: 1、探索构建“视觉-语言-动作”的一体化业务数据建模,让数据从“孤立样本”转化为“可解释、可关联、可驱动优化”的智能资产; 2、迁移部署前沿VLA模型到业务数据链路,协助搭建“数据采集/挖掘-模型训练-效果验证”的闭环迭代链路,为“数据驱动的持续进化”提供了关键技术支撑; 3、跟踪VLA领域的前沿技术动态,调研最新研究成果和发展趋势,定期进行技术分享,给团队引入新技术思路;

1、参与前沿算法部署:视觉算法模型导出,量化,工程部署与优化,应用示例开发。 2、参与算法方案交付工作:构建算法业务流,算法方案迭代与测试,交付工作支持。 3、探索机器人的无限可能,将各类算法或开源项目应用于机器人,探索具身智能。

1、参与前沿算法部署:视觉算法模型导出,量化,工程部署与优化,应用示例开发。 2、参与算法方案交付工作:构建算法业务流,算法方案迭代与测试,交付工作支持。 3、探索机器人的无限可能,将各类算法或开源项目应用于机器人,探索具身智能。
1.负责理想汽车VLA模型方法研发和工程落地,包括但不限于视觉多模态理解、高级指令拆解及多模态policy预测; 2.负责设计高性能上限,具备量产能力的VLA模型算法,对包括但不限于diffusion、VLM等模型算法有实操经验; 3.开发高效离线训练框架,以及可实时运行的在线推理框架,优化模型推理性能,研发模型部署工具链和优化工具; 4.建立云端数据感知/决策联合标注Pipeline、数据挖掘机制以及难样本分析等工具链,通过数据闭环持续选代模型能力。
多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。