logo of horizon

地平线VLA算法实习生

校招全职算法序列地点:北京 | 上海 | 香港状态:招聘

任职要求


【任职要求】
1、计算机、数学等相关专业在读硕士及以上学历;
2、具备扎实的数学和机器学习基础;
3、具有较强的编程能力、英文文献阅读能力、自我学习能力;
4、实习时间6个月以上,自我驱动,针对某一个方向独立深入研究,或参与主版本迭代。
【课题背景】
在自动驾驶等复杂场景中,智能系统需要对高吞吐、长时序的视觉流进行实时处理,同时兼顾低延迟、长时记忆与资源高效性。传统视觉语言动作(VLA)模型在处理 30 秒级视频时,token 规模可达百亿级,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【岗位职责】
-突破时序编码瓶颈:引入 Test-time-training 等技术,实现对物理世界时序信息的高效压缩与编码,在保持性能的同时,将 token 规模与算力开销降至可部署级别。
-构建场景化 VLA 数据体系:基于驾驶场景,构建覆盖空间感知、时序行为、长尾场景与因果推理的结构化数据体系,提升模型对物理世界的理解深度。
-实现实时闭环决策:在车载边缘设备上实现 24FPS 以上的实时推理,让模型从 “被动感知” 进化为 “主动决策”,支撑自动驾驶的长程规划与安全交互。
包括英文材料
学历+
机器学习+
还有更多 •••
相关职位

logo of mi
社招A210746

负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。

更新于 2025-03-26北京
logo of meituan
实习核心本地商业-基

深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1.感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对物体位姿、状态、物理属性的精准理解,以及对复杂任务的任务推理与拆解能力。 2.行动与控制:基于真机示教数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3.仿真与虚实迁移:参与构建高逼真度的物理仿真环境(如 Isaac Sim, SAPIEN 等),用于大规模、低成本地训练和验证具身智能算法。

更新于 2025-05-23北京|上海|深圳
logo of alibaba
实习阿里国际2026

关于我们: AI Business 成立于2023年4月,是阿里国际数字商业集团设立的一层业务组织,专注于大模型技术能力建设和 AI 原生应用和产品的打造,旨在用最先进的 AI 技术重塑平台竞争力,为商家和用户带来极致电商体验。 作为跨境电商领域的 AI 先锋,我们坚定地相信人工智能对塑造未来电商的关键作用,并坚持对 AI 领域人才的培养和发展。我们已经汇聚了业内顶尖的 AI 算法专家、AI 工程师和AI产品团队,并诚挚邀请有共同使命感、追求创新与卓越的 AI 人才加入我们的团队,共同用AI技术书写数字商业领域的新篇章。 职位描述: 1、负责多语言大语言模型(LLM)的预训练、微调及优化,探索高效训练策略(如低资源语种能力迁移、任务调度优化等),提升模型性能与跨文化场景适应性; 2、构建多模态大模型技术体系,包括图文生成、视频内容生成、多模态检索与信息抽取,支持商品虚拟试穿、智能客服等业务场景。 3、推动大模型与业务深度融合,开发基于LLM的对话系统、Agent产品及RAG系统,优化电商文本生成、跨语言信息匹配、时间序列预测等场景的智能决策能力; 4、设计强化学习对齐算法(如RLHF/DPO),提升模型在垂直领域(如商品推荐、用户交互)的精准度与可控性。 4、实现大模型的高效推理部署,包括模型压缩量化、GPU并行计算优化(如CUDA加速),确保高并发场景下的服务稳定性; 5、探索生成式AI与电商场景结合的前沿技术(如AIGC内容生成、多模态商品检索),推动技术规模化落地。

更新于 2025-03-21杭州
logo of cainiao
实习菜鸟集团2026

1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

更新于 2025-05-19杭州