logo of mi

小米顶尖应届-视觉基础模型算法工程师-自动驾驶

校招全职地点:上海状态:招聘

任职要求


1. 计算机视觉深度学习自动驾驶等相关专业硕士及以上学历;
2. 扎实的自监督表征学习知识,熟悉MAE、DINO、Data2Vec、VideoMAE、World Model等主流方法;
3. 熟悉主流感知任务(Occupancy、Depth、Semantic Seg、Flow)建模技术;
4. 了解BEV感知架构与跨视角特征对齐机制(如LSS、FIERY、BEVFormer)。

加分项:
1. 在CVPR/ICCV/NeurIPS等会议发表BEV感知/自监督预训练相关论文;
2. 熟悉OpenOccupancy、OccFormer、InternImage、M2BEV等项目;
3. 有数据闭环经验,能够基于训练指标推动任务数据优化。

工作职责


1. 构建支持多感知任务的视觉主干模型(ViT/ConvNeXt 变体),支持BEV与多视角输入;
2. 研究多任务感知结构的共享编码器与分离解码器设计,提升特征共享能力与下游性能;
3. 研究多任务联合训练策略与自监督学习机制,如World model、Masked Modeling、contrastive alignment、BEV pretrain;
4. 在Occupancy、Occ Flow、Depth等方向构建高质量训练集,支持无标签预训练与有限标签适配。

【课题名称】
视觉Foundation Model
【课题内容】
研究构建统一、可泛化、可压缩的视觉感知基础模型,以支持多种下游自动驾驶任务(Depth、Semantic、Optical Flow、Occupancy、Occupancy Flow)同时学习并共享表征。该方向侧重视觉模态自监督学习,通过MAE/diffusion等手段构建可迁移感知主干,具备跨任务迁移、零样本适配能力,显著提升感知系统的通用性与数据效率。
包括英文材料
OpenCV+
深度学习+
自动驾驶+
学历+
CVPR+
ICCV+
NeurIPS+
相关职位

logo of mi
校招

1. 构建支持多感知任务的视觉主干模型(ViT/ConvNeXt 变体),支持BEV与多视角输入; 2. 研究多任务感知结构的共享编码器与分离解码器设计,提升特征共享能力与下游性能; 3. 研究多任务联合训练策略与自监督学习机制,如World model、Masked Modeling、contrastive alignment、BEV pretrain; 4. 在Occupancy、Occ Flow、Depth等方向构建高质量训练集,支持无标签预训练与有限标签适配。 【课题名称】 视觉Foundation Model 【课题内容】 研究构建统一、可泛化、可压缩的视觉感知基础模型,以支持多种下游自动驾驶任务(Depth、Semantic、Optical Flow、Occupancy、Occupancy Flow)同时学习并共享表征。该方向侧重视觉模态自监督学习,通过MAE/diffusion等手段构建可迁移感知主干,具备跨任务迁移、零样本适配能力,显著提升感知系统的通用性与数据效率。

更新于 2025-06-26
logo of mi
校招

1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。

更新于 2025-06-26
logo of mi
校招

1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。

更新于 2025-06-26
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26