小米自动驾驶多模态大模型算法研发实习生(VLA方向)
任职要求
1.计算机、人工智能、电子工程、自动化等相关专业硕士及以上学历在读,毕业时间不早于2025年; 2.具备多模态预训练、表征学习或强化学习相关研究经验者优先,熟悉 LLM/VLM/VLA 系列模型架构; 3.有多模态大模型(如 GPT-4V、LLaVA、InterVL、QwenVL)相关背景者优先; 4.熟悉 RLHF、DPO、模型蒸馏等训练优化技术,理解其在任务对齐与行为建模中的实际应用; 5.熟练掌握 PyTorch,具备独立开发训练深度模型的能力,了解模型调优、训练效率优化等工程实践; 6.有一定的数据构建与处理经验,能够高效组织多模态数据 pipeline; 7.每周可实习4天及以上,持续时间不少于6个月;具备良好的英文读写能力、沟通能力和团队合作精神。
工作职责
自动驾驶场景下多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。
1. 参与研发前沿大语言模型、多模态大模型、文生3D方向等相关前沿算法,发表国际顶级论文、申请专利 2. 深入调研和关注LLM/VLM/AIGC等方向的前沿技术,重点关注大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向 3. 负责多模态理解&3D生成式等算法,如 LLava、GPT、Otter、StabelDiffusion等系列,包括但不限于图像-文本的多模态对话、多模态标签生成、VQA、多模态任务解析、触发、图像数据编辑及生成等。
1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

一、工作地点 上海 二、 负责自动驾驶领城LLM、VLM、VLA相关算法的设计与优化,探索其在自动驾驶各环节的创新应用,以提升自动驾驶系统的整体性能和安全性。 基于海量自动驾驶数据,进行模型训练和调优,挖掘数据价值,构建高质量数据集,提高模型的泛化能力和准确性。 开发基于大模型的数据分析工具和平台,为自动驾驶研发提供数据驱动的决策支持,推动自动驾驶技术的持续进步。 推动大模型算法在实际自动驾驶产品中的部署与落地性,满足自动驾驶在各种场景下的应用需求。 三、