logo of horizon

地平线VLA算法实习生

实习兼职算法序列地点:北京 | 上海 | 香港状态:招聘

任职要求


【任职要求】
1、计算机、数学等相关专业在读硕士及以上学历;
2、具备扎实的数学和机器学习基础;
3、具有较强的编程能力、英文文献阅读能力、自我学习能力;
4、实习时间6个月以上,自我驱动,针对某一个方向独立深入研究,或参与主版本迭代。
【课题背景】
在自动驾驶等复杂场景中,智能系统需要对高吞吐、长时序的视觉流进行实时处理,同时兼顾低延迟、长时记忆与资源高效性。传统视觉语言动作(VLA)模型在处理 30 秒级视频时,token 规模可达百亿级,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【岗位职责】
-突破时序编码瓶颈:引入 Test-time-training 等技术,实现对物理世界时序信息的高效压缩与编码,在保持性能的同时,将 token 规模与算力开销降至可部署级别。
-构建场景化 VLA 数据体系:基于驾驶场景,构建覆盖空间感知、时序行为、长尾场景与因果推理的结构化数据体系,提升模型对物理世界的理解深度。
-实现实时闭环决策:在车载边缘设备上实现 24FPS 以上的实时推理,让模型从 “被动感知” 进化为 “主动决策”,支撑自动驾驶的长程规划与安全交互。
包括英文材料
学历+
机器学习+
还有更多 •••
相关职位

logo of liauto
实习算法与软件

1.负责理想汽车VLA模型方法研发和工程落地,包括但不限于视觉多模态理解、高级指令拆解及多模态policy预测; 2.负责设计高性能上限,具备量产能力的VLA模型算法,对包括但不限于diffusion、VLM等模型算法有实操经验; 3.开发高效离线训练框架,以及可实时运行的在线推理框架,优化模型推理性能,研发模型部署工具链和优化工具; 4.建立云端数据感知/决策联合标注Pipeline、数据挖掘机制以及难样本分析等工具链,通过数据闭环持续选代模型能力。

北京
logo of mi
实习

多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。

更新于 2025-11-14上海
logo of mi
实习

多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。

更新于 2026-01-06北京
logo of horizon
校招算法序列

【岗位职责】 -突破时序编码瓶颈:引入 Test-time-training 等技术,实现对物理世界时序信息的高效压缩与编码,在保持性能的同时,将 token 规模与算力开销降至可部署级别。 -构建场景化 VLA 数据体系:基于驾驶场景,构建覆盖空间感知、时序行为、长尾场景与因果推理的结构化数据体系,提升模型对物理世界的理解深度。 -实现实时闭环决策:在车载边缘设备上实现 24FPS 以上的实时推理,让模型从 “被动感知” 进化为 “主动决策”,支撑自动驾驶的长程规划与安全交互。

更新于 2026-03-16北京|上海|香港