
得物具身机器人模型算法实习生
任职要求
职位要求 1. 计算机、数学、人工智能等相关专业硕士及以上学历,有具身智能领域背景者优先; 2. 熟悉多模态领域算法,熟悉Llava、QwenVL等基础VLM模型;熟悉OpenVLA、RT-2、Pi0、RDT等基础VLA模型;熟悉NLP领域算法,熟悉Ber…
工作职责
1. 参与多模态理解与生成大模型、VLA大模型所需的数据清洗和自动标注系统开发,确保各类型/模态数据的质量与多样性,探索高效的数据增强和数据合成方法; 2. 机器人领域大模型的数据采集设计、数据管理、数据质量评测 3. 机器人领域大模型的算法训练,保证模型在多任务、多机器本体的成功应用,机器人大模型训练统一框架的设计 4. 复现并优化主流具身智能范式:如 Diffusion Policy、RT-2、Octo、GR00T、π0、π0.5、πRL等; 5. 将训练好的VLA/VLN模型部署至真实机器人平台
1. 负责机器人操作世界模型算法研发,包括视频预测、状态建模、动作生成、潜在空间建模等核心技术; 2. 参与 VLA 模型训练与优化,探索世界模型在长时序操作、多任务泛化与复杂场景推理中的应用; 3. 参与类似 DreamZero、FastWAM 等生成式机器人算法方向研究,探索基于视频生成与未来状态预测的机器人动作规划与控制能力; 4. 构建机器人操作评估与数据闭环系统,推动模型在真实机器人上的部署验证与 sim2real 泛化; 5. 跟踪世界模型、机器人基础模型、强化学习与多模态生成模型等前沿方向,完成相关算法复现、优化与创新。
1.负责理想汽车VLA模型方法研发和工程落地,包括但不限于视觉多模态理解、高级指令拆解及多模态policy预测; 2.负责设计高性能上限,具备量产能力的VLA模型算法,对包括但不限于diffusion、VLM等模型算法有实操经验; 3.开发高效离线训练框架,以及可实时运行的在线推理框架,优化模型推理性能,研发模型部署工具链和优化工具; 4.建立云端数据感知/决策联合标注Pipeline、数据挖掘机制以及难样本分析等工具链,通过数据闭环持续选代模型能力。
我们致力于前沿机器人交互技术的研发,目标是打造能够精准理解人类意图、实现自然流畅人机协作的下一代机器人系统。在这里,您将有机会将最先进的计算机视觉与多模态大模型技术应用于真实的机器人场景,解决极具挑战性的问题,并见证您的算法如何改变人机交互的未来。 负责机器人交互中的核心意图识别算法的研发与迭代,技术方向包括但不限于:目标检测、多目标跟踪、人体/人脸关键点检测、手势识别、行为理解等。 探索并推动多模态大模型在机器人交互场景下的应用与落地,实现基于视觉、语音等多模态信息的深度意图理解。 负责将算法模型进行高效的优化、部署和集成,确保其在真实机器人平台上的性能和稳定性。 持续跟踪计算机视觉、多模态学习、机器人学等领域的最新学术进展,并将有潜力的技术转化为实际生产力。