蚂蚁金服研究型实习生-具身智能操作系统的安全性研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: IoT 项目简介: 具身智能作为人工智能发展的新范式,通过物理实体(如机器人、无人系统等)直接与现实世界交互,其核心挑战在于融合AI与物理实体的安全可控性。当前系统涉及硬件设施、算法模型、数据系统等多维度复杂性,潜在攻击面包括传感器漏洞、多模块协同干扰、算法对抗攻击等。恶意攻击很可能引发具身智能体执行危险动作。传统安全防护难以应对物理域与信息域的双重威胁,目前不少厂家都在使用的开源项目Robot Operation System(机器人操作系统,简称ROS)最初以科研为目标场景,缺乏系统整体性安全设计。随着ROS的广泛应用,很多安全问题随之暴露,本项目希望对具身智能操作系统的安全性展开研究,提供系统性解决安全问题的方案。
岗位职责 1. 定制化3D仿真场景与资产构建,实现多样化任务的3D场景的程序化生成。同时结合 3D Gaussian Splatting (3D-GS)等技术,优化场景的Real2Sim视觉质量; 2. 支持物体布局优化和材质、光照、相机的随机化建模等,提升仿真数据的多样性与真实性,系统性缩小 sim2real gap; 3. 协助搭建基于 NVIDIA Isaac Sim 的高保真、可扩展的机器人仿真平台,构建自动化评测流程,支持具身智能体的训练与评测;协助采集机器人操作轨迹,生成海量仿真数据,进行Benchmark和Sim2Real的实验; 4. 复现和集成前沿算法,投稿高质量会议论文。
1. 具身多模态基础模型架构研究: 构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,研究可泛化的(力/触觉)-视觉-语言-状态-动作统一建模和训练方法(包括但不限于:tokenization/latent action/world modeling等技术);探索“感知-记忆-规划-控制”的端到端或模块化建模和训练范式;研究统一操作,规划,导航等多决策场景统一的建模和训练范式;探索面向长时程任务(系统辨识、历史状态记忆、失败恢复等)的决策。 2. 大规模具身数据构建与训练方法研究:构建可扩展的数据处理管线;研究多数据源的可拓展、高鲁棒使用方法和混合训练方法,包括真机摇操数据、人类视频数据、UMI数据、VQA数据等;探索基于Sim2Real/Real2Sim的数据增强和混合训练技术;建立数据质量评估与采样策略(覆盖度、难度分层、长尾任务挖掘等)。 3. 具身基础模型测评基准与自动化评测系统研究:定义覆盖关键能力和关键场景的有代表性的Benchmark,包括指令理解、物体识别与定位、抓取与操作、导航、工具使用、长任务规划、失败恢复等能力覆盖,厨房、商超、酒旅、户外、工厂等场景覆盖;研究构建高效、可靠、可复现的评测流水线和可用于迭代的指标体系。 4. 高效率、高可靠推理系统研究:将模型在真实机器人平台和主流仿真平台中部署验证,针对延迟、稳定性、安全与可恢复性做工程化增强,研究一套适配具身场景的大规模基础模型端侧/云边协同的推理框架和适配于强化学习训练得推理框架。
运动控制开发: 参与构建人形机器人通用运控跟踪器,实现高动态行为的稳定执行。 与基于 Diffusion 的轨迹生成器协同工作,赋予机器人日常运动与操控能力(如行走、转向、平衡调整)。 专项技能研发: 开发机器人特定技能:物体抓取与搬运、球类运动、开关门等常见交互任务。 要求算法具备快速决策与高效执行能力,确保在动态环境中的稳健表现。 数据与部署链路: 参与人形机器人遥操作数据采集、仿真数据生成及人体动作数据的重定向处理。 打通从 数据→仿真→训练→部署 的完整研发链路,推动算法在实机上的优化与落地。
我们正在寻找对通用具身智能前沿研究充满热情的实习生,参与构建下一代多任务、多场景统一的具身基础大模型。本项目聚焦三大核心挑战:跨任务泛化的通用能力建模、仿真到现实(Sim2Real)的迁移鸿沟弥合、以及大规模高质量具身交互数据的自动化构建与评测。 你将深度参与以下关键方向: 1. 研发支持视觉-语言-动作(VLA)统一建模的具身基础大模型,实现零样本/少样本下的跨任务感知、理解与决策; 2. 构建高保真机器人仿真平台与世界模型(World Modeling)渲染系统,提升仿真环境的真实性与动态交互能力,缩小 Sim2Real 差距; 3. 构建大规模具身交互数据集,融合真实采集与基于世界模型的自动化生成,并配套建立标准化、可扩展的自动化评测体系; 4. 设计轻量化推理算法与部署框架,将大模型高效运行于真实机器人硬件(如 Franka、UR、Stretch 等),完成闭环验证与迭代优化。 优秀成果可形成专利/论文,或发布开源社区