
商汤元萝卜-机器人算法开发工程师 (VLA/多模态方向)
任职要求
1. 本科及以上学历,计算机、人工智能等相关专业,有顶会论文(CVPR/ICCV/ICLR/CoRL)发表者优先。 2. 精通PyTorch/Tens…
工作职责
1.VLA模型研发:负责基于Transformer架构的视觉-语言-动作(VLA)大模型的选型、微调与训练(如复现或改进RT-2,XVLA等架构)。 2.多模态数据处理:搭建多模态数据(图像/点云+语言指令+机械臂动作)的预处理与对齐管线,设计高效的数据编码/解码方案。 3.端到端策略学习:探索从像素输入直达关节控制的端到端模仿学习(Imitation Learning)算法,解决不同场景下的泛化性问题。 4.模型轻量化部署:配合系统工程师,将庞大的VLA模型量化、剪枝,并部署在端侧计算平台(Jetson Orin等)上进行实时推理。

1. 仿真环境搭建: 基于lsaac Sim/MuJoCo/Gazebo搭建高保真的家居仿真场景,实现物理属性(摩擦力、质量)的精确模拟。 2. 合成数据生成: 利用程序化生成技术(Procedural Generation)批量生成多样化的物体和房间布局,为感知和VLA模型提供海量训练数据。 3. Sim2Real迁移:研究并解决仿真与真机之间的Gap,通过域随机化(Domain Randomization)等技术确保仿真训结的策略能部署到真机。 4. 数据管线管理:建立真机遥操作(Teleoperation)数据的采集、清洗、标注和管理平台。

1. 物体位姿估计:研发物体位姿估计(6D Pose Estimation)算法,支持对物体的精准识别与定位。 2. 场景理解与重建:利用语义SLAM或NERF技术,构建家居环境的3D语义地图,为VLA模型提供环境上下文。 3. 透明/反光物体识别:针对玻璃、金属等难点物体,优化深度修复与检测算法。 4. 视觉伺服:配合控制工程师,开发基于视觉反馈的闭环控制(Visual Servoing),提升抓取成功率。

1.环境感知与目标识别:基于深度相机(如RealSense)的RGB-D数据,开发实时环境感知算法,实现家庭场景下的目标检测、图像分割、物体识别(如餐具、家具)及场景理解。 2.三维视觉与抓取支持:利用点云数据研发物体姿态估计、三维重建算法,为机械臂抓取提供精准位姿信息,优化抓取点检测。 3.视觉SLAM与定位(可选):实现视觉SLAM算法,融合多传感器数据(如IMU),构建室内环境地图并支持机器人自主导航与定位。 4.多模态融合与系统集成:协同控制与算法团队,将视觉感知结果与语言指令、控制策略结合,为视觉-语言-行动模型提供输入,并适配ROS2等机器人系统。 5.算法优化与创新:跟踪前沿视觉算法(如Transformer、基础模型),针对嵌入式平台(如Jetson)进行模型压缩、推理加速,提升实时性与鲁棒性。

1. 软件架构设计:负责机器人软件架构设计,基于ROS2框架设计并实现各功能模块,保障系统高效稳定运行。 2. 任务管理与调度:开发机器人任务决策与调度逻辑,通过状态机或行为树协调机械臂、移动底盘、视觉等模块完成复杂任务。 3. 模块集成测试:集成视觉感知、底盘控制、机械臂控制、语音/语言处理等算法模块,开展系统测试与调试,确保功能正常与数据准确。 4. 性能优化与维护:优化机器人软件的系统性能与稳定性,改进ROS2通信机制配置、并行处理及内存管理能力,持续迭代并维护软件版本。 5. 开发工具与文档:搭建开发工具链与仿真环境(如Gazebo等),编写测试用例及技术文档等,支持机器人的产品部署与升级。