小米自动驾驶多模态大模型算法研发实习生（VLA方向）

实习兼职2025-04-01地点：北京状态：招聘

扫码手机上打开

任职要求

1.计算机、人工智能、电子工程、自动化等相关专业硕士及以上学历在读，毕业时间不早于2025年；
2.具备多模态预训练、表征学习或强化学习相关研究经验者优先，熟悉 LLM/VLM/VLA 系列模型架构；
3.有多模态大模型（如 GPT-4V、LLaVA、InterVL、QwenVL）相关背景者优先；
4.熟悉 RLHF、DPO、模型蒸馏等训练优化技术，理解其在任务对齐与行为建模中的实际应用；
5.熟练掌握 PyTorch，具备独立开发训练深度模型的能力，了解模型调优、训练效率优化等工程实践；
6.有一定的数据构建与处理经验，能够高效组织多模态数据 pipeline；
7.每周可实习4天及以上，持续时间不少于6个月；具备良好的英文读写能力、沟通能力和团队合作精神。

工作职责

自动驾驶场景下多模态大模型（VLA：Vision-Language-Action）算法的预研, 包含但不限于：

1. 研究视觉、语言与行为动作之间的联合建模机制，探索多模态预训练与表征学习方法，实现跨模态对齐与融合；
2. 多模态数据集的构建与管理，包括视觉、语言、行为等多模态标签设计与质量控制；
3. 探索模型蒸馏、小样本泛化等技术，推动模型在自动驾驶复杂场景中的部署效率；
4. 跟进并复现前沿研究（如 EMMA、RT-2、OpenVLA等），协助撰写技术报告、论文或专利材料。
5. 深入调研并实践 RLHF / DPO 等对齐技术，提升多模态模型的响应能力与行为决策能力；
6. 撰写高质量的技术文档，参与论文发表或专利申请。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

大模型+

GPT+

PyTorch+

相关职位

自动驾驶多模态大模型算法研发实习生

实习

1. 参与研发前沿大语言模型、多模态大模型、文生3D方向等相关前沿算法，发表国际顶级论文、申请专利 2. 深入调研和关注LLM/VLM/AIGC等方向的前沿技术，重点关注大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向 3. 负责多模态理解&3D生成式等算法，如 LLava、GPT、Otter、StabelDiffusion等系列，包括但不限于图像-文本的多模态对话、多模态标签生成、VQA、多模态任务解析、触发、图像数据编辑及生成等。

更新于 2024-03-01

大模型算法工程师

实习菜鸟集团2026

1、自动驾驶多模态算法研究与应用：负责自动驾驶领域的多模态大模型技术研究及算法开发，包括视觉语言模型（VLM）、一段式端到端模型，以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究：开展文本（Text）、视觉（Vision）与点云（Point）融合的多模态感知基础模型研究，包括但不限于4D表征、推理（Reasoning）感知、规划等研究方向。 3、视觉-语言-动作（VLA）大模型研究：负责基于视觉-语言-动作（VLA）架构的端到端方案研究，包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发：研究基于未来帧预测的预训练模型，结合端到端框架设计，探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

更新于 2025-05-19

大模型研发实习生（2026届在校生）

实习其他

一、工作地点上海二、负责自动驾驶领城LLM、VLM、VLA相关算法的设计与优化，探索其在自动驾驶各环节的创新应用，以提升自动驾驶系统的整体性能和安全性。基于海量自动驾驶数据，进行模型训练和调优，挖掘数据价值，构建高质量数据集，提高模型的泛化能力和准确性。开发基于大模型的数据分析工具和平台，为自动驾驶研发提供数据驱动的决策支持，推动自动驾驶技术的持续进步。推动大模型算法在实际自动驾驶产品中的部署与落地性，满足自动驾驶在各种场景下的应用需求。三、

更新于 2025-07-07

端到端算法实习生

实习

1. 探索自动驾驶领域感知模型算法的研究和优化，持续探索感知模型的时空表征、感知能力； 2. 探索自动驾驶领域端到端模型、多模态大模型、强化学习等前沿技术算法的研发和优化；

更新于 2025-06-11