小米自动驾驶-机器人算法实习生
任职要求
1. 具备一定的科研背景:在自动驾驶、机器人相关的感知算法(包括BEV感知,Lidar 3D Detection/Segmentation,Occupancy Network,End2End, 多传感器融合,WorldModel,3D Gaussian,NerF,Stable Diffusion生成,单目/多目深度估计,三维重建,LMM, VLA等 AIGC大模型)中的一个或多个领域有过深入研究的经历; 2. 有过相关领域的会议论文发表(CVPR、ICCV、ECCV等等); 3. 相关领域有国内知名实验室、企业实…
工作职责
1. 参与自动驾驶、机器人方向,研发前沿多模态语言大模型(VLM,VLA)相关算法,发表国际顶级论文。 2.参与多模态理解&3D生成式(3DGS,NeRF,VGGT)等算法、LLM/VLM/AIGC等方向的前沿技术,重点关注生成式、大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向。 3. 参与WorldModel,空间智能,End2End,VLA等方向的研究。
1. 参与自动驾驶、机器人方向,端到端、前沿多模态语言大模型(VLM,VLA)等相关算法的研发。 2. 参与多模态理解&3D生成式(3DGS,NeRF,VGGT)等算法、LLM/VLM/AIGC等方向的前沿技术,重点关注生成式、大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向。 3. 参与WorldModel,空间智能,End2End,VLA等方向的研究。

1、模型复现与实现:复现当前主流的开源VLA模型(如GR00T/ π0.5/SmoIVLA/WALL-OSS等),确保算法正确性和性能。 2、系统集成与测试:将VLA模型集成到公司机器人平台,设计并执行测试方案,评估模型在真实环境中的感知、推理与执行能力。 3、算法优化与创新:针对机器人具体应用场景,对VLA模型进行微调、优化及创新,提升其在复杂环境下的适应性和鲁棒性。 4、多模态数据处理:处理视觉、语言和动作数据,构建和优化训练数据集,支持模型的训练和评估。 5、技术跟踪与报告:跟踪VLA领域的最新研究进展,撰写技术报告,并参与团队技术讨论与分享。

我们正在寻找一位热衷于自动驾驶/机器人领域有浓厚兴趣的实习生。根据个人技术栈能力和意愿, 有以下几个工作方向可以选择: 1、参与优化传感器在线标定算法的精度及运行效率; 2、探索结合NeRF/3D GS等深度学习方法, 研究开发高精度的离线自然场景标定; 3、参与设计开发通用的非线性优化库, 解决Ceres Solver的架构设计局限性及效率问题;
1. 负责自动驾驶业务场景下的感知算法研发,调研跟进前沿算法,辅助业务落地,包括但不限于: a)激光雷达3D多任务感知,如3D Object Detection,3D Semantic Segmentation, 3D Occupancy Flow Prediction, EndToEnd, World Model等; b)BEV视觉感知和前融合算法,如BEVDet,BEVFusion,Occupancy Network等; c)感知全链路研发,如跟踪,多传感器融合等; 2. 负责自动驾驶数据算法研发,助力数据自动化生产和4D真值构建,包括单不限于: a) SLAM/SFM算法研发; b) 基于Deep Learning的MonoDepth/Multi-View Stereo算法研发; c)NerF相关算法研发; d)大模型AIGC、LMM、NerF、3D Gaussian生成等技术研发; 3. 将相关结果总结沉淀,发表高水平论文 。