小米顶尖应届-空间智能端到端算法工程师-自动驾驶
任职要求
1. 计算机、人工智能相关专业,或物理学、数学等基础学科博士毕业; 2. 扎实的神经网络相关的基本功,信息论/概率论/线性代数/深度学习/机器学习等; 3. 精通视觉anything系列(深度、语义、匹配)等任意方向的研究。 加分项: 1. NIPS/CVPR/ICLR等顶会上,有视觉重建、视觉基础模型相关Oral或Spotlight文章; 2. 数学/物理奥赛/IOI/ACM取得优异成绩。
工作职责
1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。
1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。
1. 设计适用于自动驾驶任务的Diffusion-based行为生成模型,涵盖轨迹预测、控制输出、长时规规划; 2. 研究基于图像和高维环境语义输入的扩散过程,支持条件生成与多模态控制分布建模; 3. 推动该方向模型从仿真到实车的部署,包括实时性优化、鲁棒性评估与反馈机制构建。 【课题名称】 Diffusion-based Nueral Planner 【课题内容】 探索扩散生成模型在端到端自动驾驶规划中的泛化能力和多模态决策潜力。以感知输入(图像、BEV等)直接生成控制信号(steering, acceleration),或隐式轨迹规划中间表示,构建具备不确定性建模、多样性采样和高分辨率行为预测能力的决策系统。参考如DiffPlan、MotionDiffuser、Wayformer+Diffusion等工作,推动视觉到控制的生成式范式演进。
1. 设计适用于自动驾驶任务的Diffusion-based行为生成模型,涵盖轨迹预测、控制输出、长时规规划; 2. 研究基于图像和高维环境语义输入的扩散过程,支持条件生成与多模态控制分布建模; 3. 推动该方向模型从仿真到实车的部署,包括实时性优化、鲁棒性评估与反馈机制构建。 【课题名称】 Diffusion-based Nueral Planner 【课题内容】 探索扩散生成模型在端到端自动驾驶规划中的泛化能力和多模态决策潜力。以感知输入(图像、BEV等)直接生成控制信号(steering, acceleration),或隐式轨迹规划中间表示,构建具备不确定性建模、多样性采样和高分辨率行为预测能力的决策系统。参考如DiffPlan、MotionDiffuser、Wayformer+Diffusion等工作,推动视觉到控制的生成式范式演进。
1. 优化现有方案:改进传统五轴防抖算法,融合深度学习模型(如Vid2Vid、ST-GAN),提升旋转+平移抖动的修正精度;分析抖动模式与用户运镜意图,设计动态路径平滑策略; 2. 3D场景渲染与新视角生成:基于3DGS/NeRF技术构建视频序列的三维场景表示;开发视角合成模块,实现防抖路径下的新视角渲染与抖动补偿;优化多视角一致性与渲染效率,降低几何畸变与模糊残留; 3. 实时部署与软硬融合:设计轻量化3DGS网络架构,适配移动端算力;联合硬件团队优化算法在ISP/DSP的协同计算,降低功耗与延迟;推动技术落地至小米旗舰手机与智能汽车车载相机系统。 【课题名称】 视频AI防抖(基于3D场景重建的智能运镜防抖技术研究) 【课题内容】 研究并开发结合三维场景还原(如3DGS、NeRF)与专业运镜路径规划的视频防抖系统。 1. 利用3D高斯溅射(3DGS)等技术实现动态场景的三维空间重建; 2. 设计新视角生成算法,提升防抖路径平滑度与空间连续性; 3. 探索算法在手机端及车载设备的实时部署能力,支持专业运镜模式下的抖动补偿。