logo of mi

小米自动驾驶与机器人多模态大模型算法研究专家(VLA方向)

社招全职A210746地点:北京状态:招聘

任职要求


教育背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备等效的研究经验;

多模态研究经验:深入了解视觉-语言-行动(VLA)大模型的构建与优化方法,特别是在自动驾驶、机器人等领域的应用;

理论与实践能力:扎实的机器学习深度学习理论基础,具有视觉理解、自然语言处理与行为决策的交叉领域研究背景;

编程能力:熟练掌握Python及主流深度学习框架(如PyTorchTensorFlow等),有高效模型训练与大规模数据处理经验;

学术能力:具有在国际顶级会议(NeurIPSICLRCVPRICCV等)上发表过论文的经验,或参与过具有影响力的学术竞赛(如COCO、Kitti、nuScenes等);

跨学科能力:具备跨学科协作能力,能够有效将计算机视觉自然语言处理与机器人学的知识融合,推动自动驾驶机器人领域的创新;

加分项:


在大规模预训练模型(如LLM、VLM、VLA等)微调、蒸馏等方面有深入研究;

具有实际项目经验,尤其是涉及具身多模态大模型 (如RT2、OpenVLA、Octo等) 开发经验者优先;

具有机器人或自动驾驶平台(如MuJoCo、CARLA、Waymo、nuScenes等)上的实验经验。

工作职责


负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力;

主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑;

与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题;

撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
包括英文材料
自动驾驶+
学历+
大模型+
机器学习+
深度学习+
NLP+
Python+
PyTorch+
TensorFlow+
NeurIPS+
CVPR+
ICCV+
OpenCV+
相关职位

logo of insta360
社招3年以上

1. 负责研究和开发适合机器人的多模态大模型算法,包括但不限于语言、图像、视频、点云等模态,应用于机器人环境感知、决策、规划控制等领域 2. 负责多模态大模型算法设计、开发以及验证,通过仿真和数据闭环等方式控制和量化算法迭代效果 3. 通过研发世界模型、生成式模型,搭建闭环渲染系统,辅助端到端模型的训练 4. 深入调研前沿算法,探索前沿算法在具体场景中落地的可能性

更新于 2025-03-06
logo of xpeng
校招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-04-03
logo of xpeng
社招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-01-09
logo of vivo
社招5年以上研发类

1. VLA模型架构创新与研发: 主导机器人视觉-语言-动作(VLA)大模型的架构设计、算法研发与实现,攻克多模态特征高效对齐、动作序列生成与推理优化等关键技术,显著提升模型在机器人操作、自动驾驶等复杂任务中的端到端执行能力; 2. 机器人多模态智能系统构建: 设计并实现融合视觉、语言与动作信号的联合训练框架,研发基于Transformer或扩散模型的跨模态交互与理解机制,提升模型在动态复杂环境下的语义理解、情境推理与决策能力; 3. 模型高效部署与优化: 面向具身智能硬件平台(如机械臂、移动机器人),深度优化VLA模型的实时推理性能,运用算子融合、量化压缩、模型剪枝等前沿技术,实现模型在边缘设备的高效、低延迟部署; 4. 跨模态数据闭环体系搭建: 构建面向具身智能的大规模、高质量数据采集、增强与标注系统,开发仿真验证工具链,建立数据驱动的模型迭代闭环,持续提升VLA模型在真实场景下的鲁棒性与泛化能力。

更新于 2025-07-03