小米自动驾驶多模态大模型算法研发实习生
任职要求
1. 2025届硕士及以上学历在读,人工智能、计算机、自动化、数学相关专业优先; 2. 有扩散模型、GAN、ControlNet、LoRA、P-Tuning、NeRF等生成模型使用经验者优先; 3. 熟悉多模态 CLIP 等transformer跨模态表征模型,熟悉 LLaVA、GPT-like、Otter、Sora 等前沿多模态大模型原理和训练,了解 LMM 训练中的数据制作、性能调优及评测等环节者优先; 4. 有一作顶级会议和期刊文章,有开源项目经验,或在多模态、计算机视觉或机器学习领域的比赛中获得过优异成绩者优先; 5. 一周4-5天,且持续6个月以上,有良好的英文读写能力和扎实的数学基础;责任心强,积极主动,有良好的沟通能力和团队合作能力;
工作职责
1. 参与研发前沿大语言模型、多模态大模型、文生3D方向等相关前沿算法,发表国际顶级论文、申请专利 2. 深入调研和关注LLM/VLM/AIGC等方向的前沿技术,重点关注大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向 3. 负责多模态理解&3D生成式等算法,如 LLava、GPT、Otter、StabelDiffusion等系列,包括但不限于图像-文本的多模态对话、多模态标签生成、VQA、多模态任务解析、触发、图像数据编辑及生成等。
自动驾驶场景下多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。
1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

一、工作地点 上海 二、 负责自动驾驶领城LLM、VLM、VLA相关算法的设计与优化,探索其在自动驾驶各环节的创新应用,以提升自动驾驶系统的整体性能和安全性。 基于海量自动驾驶数据,进行模型训练和调优,挖掘数据价值,构建高质量数据集,提高模型的泛化能力和准确性。 开发基于大模型的数据分析工具和平台,为自动驾驶研发提供数据驱动的决策支持,推动自动驾驶技术的持续进步。 推动大模型算法在实际自动驾驶产品中的部署与落地性,满足自动驾驶在各种场景下的应用需求。 三、