小米VLA算法实习生
任职要求
1.计算机、人工智能、电子工程、自动化等相关专业硕士及以上学历在读,毕业时间不早于2026年; 2.具备多模态预训练、表征学习或强化学习相关研究经验者优先,熟悉 LLM/VLM/VLA 系列模型架构; 3.有多模态大模型(如 GPT-4V、LLaVA、InterVL、QwenVL)相关背景者优先; 4.熟悉 RLHF、DPO、模型蒸…
工作职责
多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。
1. 跟踪VLM/VLA、世界模型、3D生成等前沿技术动态,结合地图领域的专业知识,探索其在智能交通与位置服务中的创新应用; 2. 基于高德海量多源异构数据,参与多模态地图大模型的构建、训练及性能调优; 3. 研发面向静态要素检测、occupancy网格预测及三维场景重建的多模态感知算法,建设复杂城市场景下的空间理解与环境表征能力。
1. 参与淘宝闪购物流调度基础策略算法开发,包括不限于:供需预测、活动弹性预估、多单取送顺序路径规划、ETA模型等基础模型迭代; 2. 运用先进技术,包括不限于VLA、Transformer、强化学习/模仿学习、diffusion生成式模型等最新的深度学习技术,围绕骑手、商户、用户进行行为进行建模,例如骑手出勤完单模型、骑手端操作行为、骑手取送顺序行为、空载轨迹预测模型等,提升物流仿真系统精度,赋能物流技术业务发展; 3. 通过挖掘地理特征、骑手行为特征,骑手、用户画像embedding,持续迭代和提升模型精度,尤其是在恶劣天气、节假日等长尾场景。
1. 主导具身智能机器人(不限于四足/人形/物流设备等)的系统架构设计及核心器件选型: 全面负责机器人本体硬件平台(结构、电驱、传感器系统)及运动控制系统的顶层设计、技术路线制定与关键器件评估选型; 2. 以具身AGI为技术导向,领导硬件与控制研发: 聚焦解决大空间、复杂室内外场景下的机器人高动态移动控制、鲁棒导航及自然人机交互等核心挑战,推动高性能硬件与控制算法的协同创新与工程落地; 3. 驱动端到端视觉-语言-动作(Vision-Language-Action)算法在机器人平台的集成与量产化:与算法团队协作,实现端到端VLA模型在机器人的高效部署、实时推理及性能优化,构建支撑算法迭代的闭环数据系统(数据引擎与数据飞轮); 4. 引领技术前沿与构建影响力: 持续跟踪并研判行业前沿技术方案(硬件、控制、感知与AI融合),主导具身智能软硬件协同的核心技术攻关,并通过开源、顶会论文、专利等方式建立并提升团队的技术领导力与行业影响力。