logo of mi

小米自动驾驶多模态大模型算法研发实习生

实习兼职地点:北京状态:招聘

任职要求


1. 2025届硕士及以上学历在读,人工智能、计算机、自动化、数学相关专业优先;
2. 有扩散模型、GAN、ControlNet、LoRA、P-Tuning、NeRF等生成模型使用经验者优先;
3. 熟悉多模态 CLIP 等transformer跨模态表征模型,熟悉 LLaVA、GPT-like、Otter、Sora 等前沿多模态大模型原理和训练,了解 LMM 训练中的数据制作、性能调优及评测等环节者优先;
4. 有一作顶级会议和期刊文章,有开源项目经验,或在多模态、计算机视觉机器学习领域的比赛中获得过优异成绩者优先;
5. 一周4-5天,且持续6个月以上,有良好的英文读写能力和扎实的数学基础;责任心强,积极主动,有良好的沟通能力和团队合作能力;

工作职责


1. 参与研发前沿大语言模型、多模态大模型、文生3D方向等相关前沿算法,发表国际顶级论文、申请专利
2. 深入调研和关注LLM/VLM/AIGC等方向的前沿技术,重点关注大语言模型和多模态模型Evaluation/SFT/Agent/数据合成技术等相关方向
3. 负责多模态理解&3D生成式等算法,如 LLava、GPT、Otter、StabelDiffusion等系列,包括但不限于图像-文本的多模态对话、多模态标签生成、VQA、多模态任务解析、触发、图像数据编辑及生成等。
包括英文材料
学历+
Transformer+
GPT+
大模型+
性能调优+
OpenCV+
机器学习+
相关职位

logo of mi
实习

自动驾驶场景下多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。

更新于 2025-04-01
logo of cainiao
实习菜鸟集团2026

1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

更新于 2025-05-19
logo of weride
实习其他

一、工作地点 上海 二、 负责自动驾驶领城LLM、VLM、VLA相关算法的设计与优化,探索其在自动驾驶各环节的创新应用,以提升自动驾驶系统的整体性能和安全性。 基于海量自动驾驶数据,进行模型训练和调优,挖掘数据价值,构建高质量数据集,提高模型的泛化能力和准确性。 开发基于大模型的数据分析工具和平台,为自动驾驶研发提供数据驱动的决策支持,推动自动驾驶技术的持续进步。 推动大模型算法在实际自动驾驶产品中的部署与落地性,满足自动驾驶在各种场景下的应用需求。 三、

更新于 2025-07-07
logo of mi
实习

1. 探索自动驾驶领域感知模型算法的研究和优化,持续探索感知模型的时空表征、感知能力; 2. 探索自动驾驶领域端到端模型、多模态大模型、强化学习等前沿技术算法的研发和优化;

更新于 2025-06-11