小米顶尖应届-自动驾驶VLA大模型工程师-汽车
任职要求
1. 计算机科学、人工智能、自动化或相关专业在读硕士或博士研究生,发布过CVPR/ECCV/ICCV/NeurIPS/ICRA/CoRL等会议的优先; 2. 熟悉深度学习基本原理,掌握至少一种主流深度学习框架(如PyTorch, TensorFlow); 3. 对自然语言处理(NLP)、计算机视觉(CV)有深入理解,有视觉语言模型(VLM/VLA)相关项目经验者优先; 4. 具备扎实的编程能力(Python优先)和算法基础; 5. 对自动驾驶或机器人技术有浓厚兴趣,具备良好的中英文文献阅读和撰写能力; 6. 具备较强的分析问题和解决问题的能力,良好的沟通和团队协作精神。
工作职责
1. 参与研究与开发融合视觉与语言理解的端到端自动驾驶新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强自动驾驶系统的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试; 5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态; 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 自动驾驶VLA大模型预研 【课题内容】 探索融合视觉语言行为大模型(VLA)至端到端自动驾驶的新范式,实现更强的自动驾驶泛化能力和更自然的交互方式。
1. 参与研究与开发融合视觉与语言理解的端到端机器人新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强机器人的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试。 5.跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态。 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 具身基座VLA大模型预研 【课题内容】 探索如何利用VLA与Foundation Model技术提升机器人的环境理解、任务规划与泛化执行能力,构建面向未来的通用智能体。
1. 负责 高保真仿真场景重建算法和工具开发; 2. 负责 仿真场景数字孪生建设和仿真场景泛化能力建设; 3. 负责 仿真环境Mesh渲染优化、Mesh自动化补全算法开发; 4. 负责 3D资产/场景自动化导入仿真平台,物理属性自动识别工具开发。 【课题名称】 仿真场景高精细度重建 【课题内容】 针对机器人的操作和导航场景, 开发高保真的仿真场景重建算法和工具链, 具体包含: 1. 仿真场景视觉高保真重建 2. 仿真资产物理属性自动还原 3. 资产自动化导入仿真平台, 自动化补全Mesh 4. 仿真环境Mesh渲染优化
1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。
1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。