小米World Action Model实习生
任职要求
1、计算机、机器人、自动化、数学等相关专业的硕士或优秀本科生,具备相关项目经验者优先; 2、具备扎实的编程能力,熟练使用agentic coding; 3、具备良好的团队协作能力,沟通顺畅,积…
工作职责
1、参与世界模型的研发,包括数据准备、模型训练、模型评估全链条 2、参与基于世界模型的World Action Model的构建,解决Physical AI中的实际问题 3、追踪World Action Model前沿工作,探索Physical AI下一代方案
1、研发面向自动驾驶与机器人场景的 embodied agent 决策算法,探索 RLHF / RLAIF、offline RL、online RL、imitation learning 与 world model 的联合优化,提升 Agent 在真实环境中的长程规划与任务执行能力; 2、设计奖励函数、verifier、safety shield 与仿真环境,系统解决稀疏奖励、安全约束、信用分配、泛化性与 sim2real 迁移等核心问题; 3、构建高层 planner 与低层 policy 的分层优化框架,结合 VLM/VLA、状态估计、工具调用与环境反馈,实现 perception-planning-action 的闭环决策; 4、建立 agent 训练与评测体系,围绕任务完成率、规划深度、规则遵循、异常恢复、样本效率、实时性与安全性开展系统评估和迭代; 5、参与真实车端/机端的算法部署、灰度验证与数据回流,推动从仿真到现实、从 demo 到闭环系统的持续优化。

【岗位职责】 1、根据个人技术背景与兴趣,你将重点参与并攻坚以下一项或多项核心工作,完成核心算法的优化探索,并在指导下冲击顶级学术会议(CVPR / ICCV / NeurIPS / ICLR 等): 2、长时序生成: 深入探索实时可交互视频生成范式,参考并改进Self-forcing, Helios 等前沿架构,突破超长时序环境生成的质量和一致性瓶颈。 3、实时交互与加速: 研究并应用 DMD2 等前沿模型蒸馏与加速算法,大幅降低视频生成延迟,实现毫秒级的基于动作(Action-conditioned)的闭环环境响应。 4、通用视觉表征构建: 负责 VAE 等底层表征模型的探索与深度优化,大幅提升图像/视频特征的重建质量与时空压缩率,为世界模型构建高保真、强泛化性的通用视觉表征。 5、架构设计与优化: 参与交互式世界模型的底层架构设计、模型训练与工程优化,支持自动驾驶端到端算法的仿真验证。