腾讯Robotics X-多模态大模型研究员-机器人方向
任职要求
1.包含但不限于计算机、信息工程、模式识别、人工智能、自动化、软件工程、电子工程、统计学、应用数学、物理学/量子计算、信息安全、信号与信息处理等专业的博士和优秀硕士; 2.有丰富的机器人多模态(视觉、触觉、力觉、自然语言等)大模型研究、训练和落地经验; 3.扎实的多模态学习相关理论基础和代码实现能力; 4.中英文阅读水平优秀,对国内外行业最前沿工作有全面的跟踪和理解; 5.熟悉开源Linux系统 (Ubun…
工作职责
1.负责机器人多模态(视觉、触觉、力觉、自然语言等)大模型的研究和开发; 2.设计和优化现有算法,提高性能(准确性、通用性、运行效率),确保高质量的用户体验; 3.深入调研和关注多模态在机器人方向的前沿技术,及时将新技术应用到产业中。
1.探索前沿系统架构,推动灵巧手在手内操作及通用、功能型操作的发展(包括不同刚柔物体在手内与环境的交互); 2.开发适用于机器人灵巧操作的机器学习模型与端到端应用; 3.创新机器人感知与智能方法,利用多模态感知(如图像、视频、音频、触觉等)赋能灵巧操作与控制算法; 4.开发高效可部署的机器人模型,并推动研究成果集成到完整系统级机器人原型中。

我们正在构建面向下一代机器人智能的具身智能大模型(Embodied Foundation Model),致力于实现机器人在真实世界中的自主感知、理解、规划与操作能力。本岗位将参与具身感知、具身规划与操作基础模型的研发,包括多模态理解、3D空间建模、机器人决策推理以及大规模仿真训练等核心方向。 你将与算法工程师、机器人系统工程师以及规控工程师团队密切合作,推动具身智能从模拟环境走向真实世界应用。 以下方向可根据候选人背景匹配(不限于): 1. 具身感知基础模型 ○ 多模态视觉语言模型(Vision-Language Model) ○ 3D感知建模(Depth / Occupancy / NeRF / Scene Graph) ○ 视频理解与时序建模 ○ 开放世界场景理解(Open-world Perception) 2. 具身规划与决策大模型 ○ 长时序任务规划(Long-horizon Planning) ○ LLM + Robotics 推理系统 ○ Tool-use 与 Agent 系统设计 ○ 多机器人协同决策 3. 具身操作基础模型 ○ 视觉-语言-动作模型 (VLA) 以及视频-动作模型(Video-Action Model) ○ 模仿学习 (Behavior Cloning, DAgger等) ○ Offline & Online Reinforcement Learning ○ 多来源数据融合(Human + Robot + Simulation) 4. 大规模仿真与Scaling Law验证 ○ GPU大规模并行仿真 ○ Sim2Real迁移 ○ 数据生成与自动标注系统 ○ Scaling Law验证与数据效率研究 5. 推理优化与系统方向 ○ 大模型推理加速 ○ 多GPU/多节点训练 ○ 模型压缩与蒸馏 ○ 机器人端侧部署优化 岗位职责: ● 参与具身智能基础模型算法设计与研发 ● 构建机器人多模态数据训练体系 ● 推动模型在真实机器人平台上的落地验证 ● 跟踪前沿研究进展并推动技术创新 ● 与跨团队协作完成系统级集成
1、面向通用人形机器人,打造行业领先的具身大模型,实现全身动作控制、场景及任务可泛化的、可scaling的VLA大模型研究,形成持续的技术影响力并引领国际行业发展。