
得物具身机器人模型算法实习生
任职要求
职位要求 1. 计算机、数学、人工智能等相关专业硕士及以上学历,有具身智能领域背景者优先; 2. 熟悉多模态领域算法,熟悉Llava、QwenVL等基础VLM模型;熟悉OpenVLA、RT-2、Pi0、RDT等基础VLA模型;熟悉NLP领域算法,熟悉Ber…
工作职责
1. 参与多模态理解与生成大模型、VLA大模型所需的数据清洗和自动标注系统开发,确保各类型/模态数据的质量与多样性,探索高效的数据增强和数据合成方法; 2. 机器人领域大模型的数据采集设计、数据管理、数据质量评测 3. 机器人领域大模型的算法训练,保证模型在多任务、多机器本体的成功应用,机器人大模型训练统一框架的设计 4. 复现并优化主流具身智能范式:如 Diffusion Policy、RT-2、Octo、GR00T、π0、π0.5、πRL等; 5. 将训练好的VLA/VLN模型部署至真实机器人平台
负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
深度参与具身智能“感知-决策-行动”技术全链路的技术攻关,在以下一个或多个方向上进行深入研究: 1.感知与决策规划:提升多模态大模型在具身场景下的能力表现,包括在复杂动态环境中对物体位姿、状态、物理属性的精准理解,以及对复杂任务的任务推理与拆解能力。 2.行动与控制:基于真机示教数据以及海量互联网视频数据,训练机器人掌握高精度的操作技能。在机器人上研究并实践强化学习算法,优化机器人的动作策略,提升其在物理世界中的动作鲁棒性和技能泛化。 3.仿真与虚实迁移:参与构建高逼真度的物理仿真环境(如 Isaac Sim, SAPIEN 等),用于大规模、低成本地训练和验证具身智能算法。
研究领域: IoT 项目简介: 具身智能作为人工智能发展的新范式,通过物理实体(如机器人、无人系统等)直接与现实世界交互,其核心挑战在于融合AI与物理实体的安全可控性。当前系统涉及硬件设施、算法模型、数据系统等多维度复杂性,潜在攻击面包括传感器漏洞、多模块协同干扰、算法对抗攻击等。恶意攻击很可能引发具身智能体执行危险动作。传统安全防护难以应对物理域与信息域的双重威胁,目前不少厂家都在使用的开源项目Robot Operation System(机器人操作系统,简称ROS)最初以科研为目标场景,缺乏系统整体性安全设计。随着ROS的广泛应用,很多安全问题随之暴露,本项目希望对具身智能操作系统的安全性展开研究,提供系统性解决安全问题的方案。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 1、面向多模态人机交互,研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术,发表高水平论文和申请专利; 2、探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用,参与具身智能算法和应用迭代。