logo of mi

小米VLA算法实习生

实习兼职地点:上海状态:招聘

任职要求


1.计算机、人工智能、电子工程、自动化等相关专业硕士及以上学历在读,毕业时间不早于2026年;
2.具备多模态预训练、表征学习或强化学习相关研究经验者优先,熟悉 LLM/VLM/VLA 系列模型架构;
3.有多模态大模型(如 GPT-4V、LLaVA、InterVL、QwenVL)相关背景者优先;
4.熟悉 RLHF、DPO、模型蒸…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于:
1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合;
2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制;
3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率;
4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。
5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力;
6. 撰写高质量的技术文档,参与论文发表或专利申请。
包括英文材料
学历+
强化学习+
大模型+
还有更多 •••
相关职位

logo of mi
社招A210746

负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。

更新于 2025-03-26北京
logo of meituan
实习核心本地商业-基

深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1.感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对物体位姿、状态、物理属性的精准理解,以及对复杂任务的任务推理与拆解能力。 2.行动与控制:基于真机示教数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3.仿真与虚实迁移:参与构建高逼真度的物理仿真环境(如 Isaac Sim, SAPIEN 等),用于大规模、低成本地训练和验证具身智能算法。

更新于 2025-05-23北京|上海|深圳
logo of alibaba
实习阿里国际2026

关于我们: AI Business 成立于2023年4月,是阿里国际数字商业集团设立的一层业务组织,专注于大模型技术能力建设和 AI 原生应用和产品的打造,旨在用最先进的 AI 技术重塑平台竞争力,为商家和用户带来极致电商体验。 作为跨境电商领域的 AI 先锋,我们坚定地相信人工智能对塑造未来电商的关键作用,并坚持对 AI 领域人才的培养和发展。我们已经汇聚了业内顶尖的 AI 算法专家、AI 工程师和AI产品团队,并诚挚邀请有共同使命感、追求创新与卓越的 AI 人才加入我们的团队,共同用AI技术书写数字商业领域的新篇章。 职位描述: 1、负责多语言大语言模型(LLM)的预训练、微调及优化,探索高效训练策略(如低资源语种能力迁移、任务调度优化等),提升模型性能与跨文化场景适应性; 2、构建多模态大模型技术体系,包括图文生成、视频内容生成、多模态检索与信息抽取,支持商品虚拟试穿、智能客服等业务场景。 3、推动大模型与业务深度融合,开发基于LLM的对话系统、Agent产品及RAG系统,优化电商文本生成、跨语言信息匹配、时间序列预测等场景的智能决策能力; 4、设计强化学习对齐算法(如RLHF/DPO),提升模型在垂直领域(如商品推荐、用户交互)的精准度与可控性。 4、实现大模型的高效推理部署,包括模型压缩量化、GPU并行计算优化(如CUDA加速),确保高并发场景下的服务稳定性; 5、探索生成式AI与电商场景结合的前沿技术(如AIGC内容生成、多模态商品检索),推动技术规模化落地。

更新于 2025-03-21杭州
logo of cainiao
实习菜鸟集团2026

1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

更新于 2025-05-19杭州