logo of mi

小米顶尖应届-自动驾驶VLA大模型工程师-汽车

校招全职地点:北京状态:招聘

任职要求


1. 计算机科学、人工智能、自动化或相关专业在读硕士或博士研究生,发布过CVPR/ECCV/ICCV/NeurIPS/ICRA/CoRL等会议的优先;
2. 熟悉深度学习基本原理,掌握至少一种主流深度学习框架(如PyTorch, TensorFlow);
3. 对自然语言处理NLP)、计算机视觉(CV)有深入理解,有视觉语言模型(VLM/VLA)相关项目经验者优先;
4. 具备扎实的编程能力(Python优先)和算法基础;
5. 对自动驾驶或机器人技术有浓厚兴趣,具备良好的中英文文献阅读和撰写能力;
6. 具备较强的分析问题和解决问题的能力,良好的沟通和团队协作精神。

工作职责


1. 参与研究与开发融合视觉与语言理解的端到端自动驾驶新范式;
2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力;
3. 探索如何利用VLA增强自动驾驶系统的泛化能力及人机交互的自然性;
4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试;
5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态;
6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。

【课题名称】
自动驾驶VLA大模型预研
【课题内容】
探索融合视觉语言行为大模型(VLA)至端到端自动驾驶的新范式,实现更强的自动驾驶泛化能力和更自然的交互方式。
包括英文材料
CVPR+
ECCV+
ICCV+
NeurIPS+
深度学习+
PyTorch+
TensorFlow+
NLP+
OpenCV+
Python+
算法+
自动驾驶+
相关职位

logo of mi
校招

1. 参与研究与开发融合视觉与语言理解的端到端机器人新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强机器人的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试。 5.跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态。 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 具身基座VLA大模型预研 【课题内容】 探索如何利用VLA与Foundation Model技术提升机器人的环境理解、任务规划与泛化执行能力,构建面向未来的通用智能体。

更新于 2025-06-26
logo of mi
校招

1. 负责 高保真仿真场景重建算法和工具开发; 2. 负责 仿真场景数字孪生建设和仿真场景泛化能力建设; 3. 负责 仿真环境Mesh渲染优化、Mesh自动化补全算法开发; 4. 负责 3D资产/场景自动化导入仿真平台,物理属性自动识别工具开发。 【课题名称】 仿真场景高精细度重建 【课题内容】 针对机器人的操作和导航场景, 开发高保真的仿真场景重建算法和工具链, 具体包含: 1. 仿真场景视觉高保真重建 2. 仿真资产物理属性自动还原 3. 资产自动化导入仿真平台, 自动化补全Mesh 4. 仿真环境Mesh渲染优化

更新于 2025-06-26
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26