logo of horizon

地平线世界模型算法实习生(实时交互方向)

实习兼职算法序列地点:北京 | 上海 | 香港状态:招聘

任职要求


计算机、人工智能、自动化等相关专业硕士/博士在读。

1、具备扎实的深度学习基础,精通 PyTorch,拥有出色的工程实现与从零搭建复杂模型架构的能力。

2、深入理解 Diffusion Models、Autoregressive Models 等生成范式,对视频生成 / World Model 有丰富的实操经验。

3、敏锐的学术嗅觉与极强的自驱力,能够快速阅读英文文献…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【岗位职责】

1、根据个人技术背景与兴趣,你将重点参与并攻坚以下一项或多项核心工作,完成核心算法的优化探索,并在指导下冲击顶级学术会议(CVPR / ICCV / NeurIPS / ICLR 等):

 
2、长时序生成: 深入探索实时可交互视频生成范式,参考并改进Self-forcing, Helios 等前沿架构,突破超长时序环境生成的质量和一致性瓶颈。
 
3、实时交互与加速: 研究并应用 DMD2 等前沿模型蒸馏与加速算法,大幅降低视频生成延迟,实现毫秒级的基于动作(Action-conditioned)的闭环环境响应。
 
4、通用视觉表征构建: 负责 VAE 等底层表征模型的探索与深度优化,大幅提升图像/视频特征的重建质量与时空压缩率,为世界模型构建高保真、强泛化性的通用视觉表征。
 
5、架构设计与优化: 参与交互式世界模型的底层架构设计、模型训练与工程优化,支持自动驾驶端到端算法的仿真验证。
包括英文材料
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of ztgame
实习实习生

聚焦探索实时可交互视频生成方向,产出高水平学术成果与影响力技术落地。 专项课题: 研究方向一:实时视频生成范式探索 1. 实时视频生成范式的探索,系统性验证AR或AR+Diffusion视频生成方案; 2. 尝试垂直领域AR生成范式和AR生成范式在数据上的scaling law和智能涌现能力; 3. DiT视频生成效率提升,包括但不限高效率、低精度损失、高压缩比的视频VAE和tokenizer、包括稀疏架构、MoE等DiT结构探索。 研究方向二:长视频生成的一致性保持 1.DIT范式,AR范式 和 AR + DiT范式下的视频生成记忆框架实现与调研,包括但不限于3D 世界模型表征记忆,预测帧缓存与重用机制 和 用户状态与意图记忆等; 2.基于隐式视觉记忆机制(跨时间追踪关键环境状态),探索无需显式3D建模的动态场景表征,支持对场景物体、光照、环境的长期记忆存储与检索。

更新于 2025-08-13上海
logo of horizon
实习算法序列

【岗位职责】 -突破时序编码瓶颈:引入 Test-time-training 等技术,实现对物理世界时序信息的高效压缩与编码,在保持性能的同时,将 token 规模与算力开销降至可部署级别。 -构建场景化 VLA 数据体系:基于驾驶场景,构建覆盖空间感知、时序行为、长尾场景与因果推理的结构化数据体系,提升模型对物理世界的理解深度。 -实现实时闭环决策:在车载边缘设备上实现 24FPS 以上的实时推理,让模型从 “被动感知” 进化为 “主动决策”,支撑自动驾驶的长程规划与安全交互。

更新于 2026-03-16北京|上海|香港
logo of horizon
校招算法序列

【岗位职责】 -突破时序编码瓶颈:引入 Test-time-training 等技术,实现对物理世界时序信息的高效压缩与编码,在保持性能的同时,将 token 规模与算力开销降至可部署级别。 -构建场景化 VLA 数据体系:基于驾驶场景,构建覆盖空间感知、时序行为、长尾场景与因果推理的结构化数据体系,提升模型对物理世界的理解深度。 -实现实时闭环决策:在车载边缘设备上实现 24FPS 以上的实时推理,让模型从 “被动感知” 进化为 “主动决策”,支撑自动驾驶的长程规划与安全交互。

更新于 2026-03-16北京|上海|香港
logo of xpeng
实习

1. 基于Isaac Gym/MuJoCo搭建高保真仿真环境,优化人形机器人运动控制RL训练的并行效率与物理精度; 2. 开发3DGS/NeRF等动态场景渲染管线,支持视觉-动力学联合仿真(sim2real迁移); 3. 构建生成式世界模型驱动的仿真系统,实现动态场景自动生成与自适应难度调控; 4. 设计分布式仿真架构,支持万级机器人实例的实时交互与数据采集。

更新于 2025-04-28深圳