logo of amap

高德地图高德-VLA实习生

实习兼职高德研究型实习生地点:北京状态:招聘

任职要求


招聘要求
1. 学历与专业背景
    ○ 硕士及以上学历,计算机科学、人工智能、机器人学、自动化、电子工程等相关专业;博士或有顶会发表者优先。
2. 核心技术能力
    ○ 熟悉主流 VLA 模型:OpenVLA、RT-1/RT-2、Pi0、RDT、ACT、Diffusion Policy 等;
    ○ 熟悉多模态大模型:Llava、Qwen-VL、CLIP、PaLM-E、RFM、R3M 等;
    ○ 掌握基础 CV 模型:ViT、DINO、SAM、Diffusion、GAN;熟悉 NLP 模型:BERTGPTLLaMA 系列;
    ○ 熟悉 PyTorch,熟练使用 ROS、TensorFlow、JAX 等框架;编程语言以 Python 为主,熟悉 C/C+
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位概述
我们正在寻找在视觉-语言-动作(Vision-Language-Action, VLA)领域具有扎实理论基础和丰富实践经验的算法工程师或研究员,致力于构建下一代通用智能机器人系统。你将参与从数据构建、模型设计到仿真训练与实机部署的全链路研发,推动 VLA 大模型在机械臂操作、人形机器人控制等复杂工业与开放场景中的前沿探索与实际落地。

职位描述(Responsibilities)
1. 前沿算法研究与复现
    ○ 跟踪 VLA 领域最新进展(如 OpenVLA、RT-2、Pi0、RDT、Diffusion Policy 等),完成 SOTA 算法在仿真与实机环境下的复现与性能分析;
    ○ 探索基于大模型的端到端机器人决策框架,实现感知→理解→规划→动作的闭环。
2. VLA 模型架构设计与优化
    ○ 设计面向工业场景的 VLA 模型结构,重点解决多模态特征对齐、动作序列生成、推理效率优化等问题;
    ○ 提升机械臂在复杂任务中的操作精度、泛化能力与鲁棒性。
3. Scaling 研究与泛化能力提升
    ○ 开展 VLA 的 scaling law 研究,涵盖数据规模、模型结构、机器人构型等维度;
    ○ 实现长序列任务执行、跨任务技能迁移与动作泛化,在更复杂的工厂或开放环境中验证模型上限。
4. 数据系统与自动标注开发
    ○ 参与多模态大模型所需的数据清洗、自动标注与增强系统的开发;
    ○ 探索高效的数据合成方法(如 sim2real 数据生成、LLM 辅助标注),保障数据质量与多样性。
5. 仿真训练与真实部署
    ○ 基于 Isaac Sim / Gym / Lab、MuJoCo 等平台搭建高保真仿真环境,构建强化学习与模仿学习训练框架;
    ○ 设计 real2sim2real 迁移策略,加速算法从仿真到现实世界的部署;
    ○ 具备实机调试经验,能独立完成模型在机械臂或人形机器人上的部署与迭代。
包括英文材料
学历+
大模型+
NLP+
BERT+
GPT+
Llama+
PyTorch+
ROS+
还有更多 •••
相关职位

logo of liauto
实习算法与软件

1.负责理想汽车VLA模型方法研发和工程落地,包括但不限于视觉多模态理解、高级指令拆解及多模态policy预测; 2.负责设计高性能上限,具备量产能力的VLA模型算法,对包括但不限于diffusion、VLM等模型算法有实操经验; 3.开发高效离线训练框架,以及可实时运行的在线推理框架,优化模型推理性能,研发模型部署工具链和优化工具; 4.建立云端数据感知/决策联合标注Pipeline、数据挖掘机制以及难样本分析等工具链,通过数据闭环持续选代模型能力。

北京
logo of mi
实习

多模态大模型(VLA:Vision-Language-Action)算法的预研, 包含但不限于: 1. 研究视觉、语言与行为动作之间的联合建模机制,探索多模态预训练与表征学习方法,实现跨模态对齐与融合; 2. 多模态数据集的构建与管理,包括视觉、语言、行为等多模态标签设计与质量控制; 3. 探索模型蒸馏、小样本泛化等技术,推动模型在自动驾驶复杂场景中的部署效率; 4. 跟进并复现前沿研究(如 EMMA、RT-2、OpenVLA等),协助撰写技术报告、论文或专利材料。 5. 深入调研并实践 RLHF / DPO 等对齐技术,提升多模态模型的响应能力与行为决策能力; 6. 撰写高质量的技术文档,参与论文发表或专利申请。

更新于 2025-11-14上海
logo of xpeng
实习

1. VLA/VLN算法开发:研究并实现Vision-Language-Action (VLA) / Vision-Language Navigation(VLN)算法,使机器人能够根据自然语言指令以及当前场景进行自主移动; 2. 多模态融合:开发视觉、语言、地图等多模态信息融合模块,提升导航决策的准确性; 3. 场景理解:实现基于视觉和语言的场景语义理解,支持复杂环境下的目标定位与路径规划; 4. 模型训练与优化:负责VLA/VLN模型的训练、调优及推理性能优化; 5. 数据与评测:参与导航数据集构建、评测指标设计及Benchmark开发。

更新于 2025-12-01深圳
logo of sensetime
实习技术族-实习

1、模型复现与实现:复现当前主流的开源VLA模型(如GR00T/ π0.5/SmoIVLA/WALL-OSS等),确保算法正确性和性能。 2、系统集成与测试:将VLA模型集成到公司机器人平台,设计并执行测试方案,评估模型在真实环境中的感知、推理与执行能力。 3、算法优化与创新:针对机器人具体应用场景,对VLA模型进行微调、优化及创新,提升其在复杂环境下的适应性和鲁棒性。 4、多模态数据处理:处理视觉、语言和动作数据,构建和优化训练数据集,支持模型的训练和评估。 5、技术跟踪与报告:跟踪VLA领域的最新研究进展,撰写技术报告,并参与团队技术讨论与分享。

更新于 2025-11-03北京