
Momenta4D重建算法实习生(Mstar)
任职要求
1.计算机科学、机器人学、电子工程等相关专业硕士以上学历; 2.精通线性代数、概率论、优化理论,熟悉深度学习模型(Transformer、CNN、RNN 等)、生成式模型(如Stable Diffusion等); 3.具备扎实的计算机视觉、多视图几何、SLAM、NERF、3D Gaussian Splatting等理论基础; 4.精通 Python/C++ 编程,熟悉常用深度…
工作职责
1.研发基于多传感器(激光雷达、摄像头等)的4D时空场景重建和生成算法,融合时序信息实现动态物体和静态场景高精度建模; 2.研发场景生成、可交互视频生成等技术,支持自动驾驶场景的高保真场景生成,用于端到端自动驾驶算法的闭环仿真和强化学习训练; 3.结合闭环仿真结果,对场景生成相关算法进行迭代,推动端到端自动驾驶系统的联合优化。

1.研发基于多传感器(激光雷达、摄像头等)的4D时空场景重建和生成算法,融合时序信息实现动态物体和静态场景高精度建模; 2.研发场景生成、可交互视频生成等技术,支持自动驾驶场景的高保真场景生成,用于端到端自动驾驶算法的闭环仿真和强化学习训练; 3.结合闭环仿真结果,对场景生成相关算法进行迭代,推动端到端自动驾驶系统的联合优化。
1. 负责计算机视觉项目开发、包括但不限于:3D/4D重建、目标跟踪、3DGS或Nerf的深度学习模型的实现与优化; 2. 协助算法设计与实现,完成模型训练、调优及性能评估; 3. 负责阅读并复现前沿论文,探索技术落地可能性; 4. 负责撰写技术文档、输出算法设计、实验分析及项目总结报告。
本项目聚焦于多模态交互数字人技术的前沿探索,旨在基于对话双方的多模态上下文(包括文本、语音、视频等),实现3D数字人表情与肢体动作的实时生成与动态驱动,显著提升数字人的拟人性、情感表达能力与临场感。研究成果将支撑虚拟主播、情感陪伴、沉浸式人机交互等创新应用场景。
1. 负责自动驾驶业务场景下的感知算法研发,调研跟进前沿算法,辅助业务落地,包括但不限于: a)激光雷达3D多任务感知,如3D Object Detection,3D Semantic Segmentation, 3D Occupancy Flow Prediction, EndToEnd, World Model等; b)BEV视觉感知和前融合算法,如BEVDet,BEVFusion,Occupancy Network等; c)感知全链路研发,如跟踪,多传感器融合等; 2. 负责自动驾驶数据算法研发,助力数据自动化生产和4D真值构建,包括单不限于: a) SLAM/SFM算法研发; b) 基于Deep Learning的MonoDepth/Multi-View Stereo算法研发; c)NerF相关算法研发; d)大模型AIGC、LMM、NerF、3D Gaussian生成等技术研发; 3. 将相关结果总结沉淀,发表高水平论文 。