通义研究型实习生 - 具身基础大模型
任职要求
1. 计算机科学、人工智能、机器人学、自动化或相关专业在读博士研究生; 2. 扎实的深度学习与大模型基础,熟悉 Transformer 架构、多模态对齐、自监督/弱监督学习等关键技术;有具身大模型的复现、训练或改进经验的优先; 3. 熟练掌握 Python,具备 PyTorch / JAX 等框架下的模型训练、调试与优化经验; 4. 对具身智能、VLA 模型、…
工作职责
我们正在寻找对通用具身智能前沿研究充满热情的实习生,参与构建下一代多任务、多场景统一的具身基础大模型。本项目聚焦三大核心挑战:跨任务泛化的通用能力建模、仿真到现实(Sim2Real)的迁移鸿沟弥合、以及大规模高质量具身交互数据的自动化构建与评测。 你将深度参与以下关键方向: 1. 研发支持视觉-语言-动作(VLA)统一建模的具身基础大模型,实现零样本/少样本下的跨任务感知、理解与决策; 2. 构建高保真机器人仿真平台与世界模型(World Modeling)渲染系统,提升仿真环境的真实性与动态交互能力,缩小 Sim2Real 差距; 3. 构建大规模具身交互数据集,融合真实采集与基于世界模型的自动化生成,并配套建立标准化、可扩展的自动化评测体系; 4. 设计轻量化推理算法与部署框架,将大模型高效运行于真实机器人硬件(如 Franka、UR、Stretch 等),完成闭环验证与迭代优化。 优秀成果可形成专利/论文,或发布开源社区
我们是通义实验室多模态交互团队,正在寻找对具身智能与数字人前沿交叉领域充满热情的研究型实习生。本项目在团队在生成理解一体化方面的坚实基础(如Z-Image等代表性工作),共同构建下一代具身智能与多模态数字人大模型,进一步打通“感知-理解-生成-执行”全链路,在统一架构下探索环境理解、行为生成与多模态交互的深度协同。 你将参与如下关键方向: 1. 设计并实现支持自然语言指令到连续动作序列端到端控制的生成理解一体化具身基础模型; 2. 构建能响应语音、文本、视觉等全模态输入,实时高质量数字人生成大模型; 3. 开发融合真实与仿真数据的千万级多模态具身训练平台; 4. 优化模型推理效率,推动大模型在机器人端侧或实时交互场景中的部署。 优秀成果可形成专利/论文,或发布通义开源社区
专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。
1. 具身多模态基础模型架构研究: 构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,研究可泛化的(力/触觉)-视觉-语言-状态-动作统一建模和训练方法(包括但不限于:tokenization/latent action/world modeling等技术);探索“感知-记忆-规划-控制”的端到端或模块化建模和训练范式;研究统一操作,规划,导航等多决策场景统一的建模和训练范式;探索面向长时程任务(系统辨识、历史状态记忆、失败恢复等)的决策。 2. 大规模具身数据构建与训练方法研究:构建可扩展的数据处理管线;研究多数据源的可拓展、高鲁棒使用方法和混合训练方法,包括真机摇操数据、人类视频数据、UMI数据、VQA数据等;探索基于Sim2Real/Real2Sim的数据增强和混合训练技术;建立数据质量评估与采样策略(覆盖度、难度分层、长尾任务挖掘等)。 3. 具身基础模型测评基准与自动化评测系统研究:定义覆盖关键能力和关键场景的有代表性的Benchmark,包括指令理解、物体识别与定位、抓取与操作、导航、工具使用、长任务规划、失败恢复等能力覆盖,厨房、商超、酒旅、户外、工厂等场景覆盖;研究构建高效、可靠、可复现的评测流水线和可用于迭代的指标体系。 4. 高效率、高可靠推理系统研究:将模型在真实机器人平台和主流仿真平台中部署验证,针对延迟、稳定性、安全与可恢复性做工程化增强,研究一套适配具身场景的大规模基础模型端侧/云边协同的推理框架和适配于强化学习训练得推理框架。
研究领域: IoT 项目简介: 具身智能作为人工智能发展的新范式,通过物理实体(如机器人、无人系统等)直接与现实世界交互,其核心挑战在于融合AI与物理实体的安全可控性。当前系统涉及硬件设施、算法模型、数据系统等多维度复杂性,潜在攻击面包括传感器漏洞、多模块协同干扰、算法对抗攻击等。恶意攻击很可能引发具身智能体执行危险动作。传统安全防护难以应对物理域与信息域的双重威胁,目前不少厂家都在使用的开源项目Robot Operation System(机器人操作系统,简称ROS)最初以科研为目标场景,缺乏系统整体性安全设计。随着ROS的广泛应用,很多安全问题随之暴露,本项目希望对具身智能操作系统的安全性展开研究,提供系统性解决安全问题的方案。