logo of xpeng

小鹏汽车具身智能算法实习生(VLA预训练方向)

实习兼职地点:深圳状态:招聘

任职要求


1、计算机、人工智能、自动化等相关专业本科及以上学历(硕士优先);
2、具备扎实的深度学习基础,熟悉 Transformer 架构,对 ViT、CLIP、LLaVA 等主流模型有深入理解;
3、有大模型(VLM、LLM)训练经验,熟悉其在多模态任务中的应用;
4、对机器人技术有浓厚兴趣,愿意参与真机测试等实践性工作;
5、熟练使用 PyTo…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【关于机器人中心】 小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。

【关于团队】 该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。 团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才。在这里,你将参与推动 LLM/VLM/VLA 与机器人智能体的融合,并在真实的物理世界中验证你的算法。

1、算法参与:参与多模态大模型(VLM/VLA)在人形机器人上的算法研究与开发,协助进行VLA预训练泛化性的研究与验证;
2、模型优化:协助进行VLA模型的训练与真机效果评估,支持机器人在复杂环境下的感知与行为能力;
3、实验验证: 学习并参与模型在机器人真机中的部署与测试,在真实环境中验证和优化模型性能,积累宝贵的行业前沿机器人实际操作经验;
4、前沿追踪: 跟踪 Embodied AI(具身智能)领域的最新的论文和开源动向。
包括英文材料
学历+
深度学习+
Transformer+
大模型+
还有更多 •••
相关职位

logo of horizon
实习算法序列

1.参与足式机器人全身运动控制(Locomotion)算法的设计与优化,构建行业领先的运控基座模型。 2.参与机器人视觉语言导航(VLN)算法的设计和优化,实现开集语言交互下的通用环境导航能力。

更新于 2026-03-16北京
logo of mi
社招A210746

负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。

更新于 2025-03-26北京
logo of meituan
实习核心本地商业-基

深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1. 感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对环境的空间理解,以及对复合任务的任务步骤拆解与任务状态判断能力。 2. 行动与控制:基于真机示教数据、增广数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3. 数据增广:通过仿真和world model等方式对真机遥操数据进行规模化增广,探索如何解决真机遥操数据的稀缺问题。

更新于 2025-12-25北京|上海
logo of meituan
实习核心本地商业-基

深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1. 感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对环境的空间理解,以及对复合任务的任务步骤拆解与任务状态判断能力。 2. 行动与控制:基于真机示教数据、增广数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3. 数据增广:通过仿真和world model等方式对真机遥操数据进行规模化增广,探索如何解决真机遥操数据的稀缺问题。

更新于 2026-03-30北京|上海