logo of tongyi

通义研究型实习生-多模态通用运动表征技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、计算机及相关专业的博士或硕士研究生,对视觉模型相关技术有了解,并参与过有关的研究或技术项目;
2、扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式;
3、优良的沟通…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于多模态通用运动表征技术的研究,具体职责包括:
1、构建一个多模态大模型框架,能够对现有多媒体素材中运动信息进行学习,输出在特定类目/物品在指定环境下运动规律的个性化表征;
2、基于上述运动表征,能够恢复、迁移到指定类目及场景下的运动效果,生成对应的视频素材;
3、模型能够拓展到通用物体场景,包含刚性/非刚性物体、被动/主动运动物体、相机视角变化/主体运动;
4、负责算法研发过程中的数据构建工作。
包括英文材料
Python+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

研发下一代机器人通用运动控制器的研发与落地:基于强化学习突破复杂地形自适应运动、多运动模态平滑切换、sim2real策略部署等关键技术,构建面向真实物理系统的运动策略训练框架,提升运动保真度与鲁棒性。

更新于 2025-11-20北京
logo of amap
实习高德研究型实习生

运动控制开发: 参与构建人形机器人通用运控跟踪器,实现高动态行为的稳定执行。 与基于 Diffusion 的轨迹生成器协同工作,赋予机器人日常运动与操控能力(如行走、转向、平衡调整)。 专项技能研发: 开发机器人特定技能:物体抓取与搬运、球类运动、开关门等常见交互任务。 要求算法具备快速决策与高效执行能力,确保在动态环境中的稳健表现。 数据与部署链路: 参与人形机器人遥操作数据采集、仿真数据生成及人体动作数据的重定向处理。 打通从 数据→仿真→训练→部署 的完整研发链路,推动算法在实机上的优化与落地。

更新于 2025-12-02北京
logo of amap
实习高德研究型实习生

职位概述 我们正在寻找在视觉-语言-动作(Vision-Language-Action, VLA)领域具有扎实理论基础和丰富实践经验的算法工程师或研究员,致力于构建下一代通用智能机器人系统。你将参与从数据构建、模型设计到仿真训练与实机部署的全链路研发,推动 VLA 大模型在机械臂操作、人形机器人控制等复杂工业与开放场景中的前沿探索与实际落地。 职位描述(Responsibilities) 1. 前沿算法研究与复现 ○ 跟踪 VLA 领域最新进展(如 OpenVLA、RT-2、Pi0、RDT、Diffusion Policy 等),完成 SOTA 算法在仿真与实机环境下的复现与性能分析; ○ 探索基于大模型的端到端机器人决策框架,实现感知→理解→规划→动作的闭环。 2. VLA 模型架构设计与优化 ○ 设计面向工业场景的 VLA 模型结构,重点解决多模态特征对齐、动作序列生成、推理效率优化等问题; ○ 提升机械臂在复杂任务中的操作精度、泛化能力与鲁棒性。 3. Scaling 研究与泛化能力提升 ○ 开展 VLA 的 scaling law 研究,涵盖数据规模、模型结构、机器人构型等维度; ○ 实现长序列任务执行、跨任务技能迁移与动作泛化,在更复杂的工厂或开放环境中验证模型上限。 4. 数据系统与自动标注开发 ○ 参与多模态大模型所需的数据清洗、自动标注与增强系统的开发; ○ 探索高效的数据合成方法(如 sim2real 数据生成、LLM 辅助标注),保障数据质量与多样性。 5. 仿真训练与真实部署 ○ 基于 Isaac Sim / Gym / Lab、MuJoCo 等平台搭建高保真仿真环境,构建强化学习与模仿学习训练框架; ○ 设计 real2sim2real 迁移策略,加速算法从仿真到现实世界的部署; ○ 具备实机调试经验,能独立完成模型在机械臂或人形机器人上的部署与迭代。

更新于 2025-10-31北京
logo of tongyi
实习通义研究型实习生

1. 模型多模态能力的提升,包括但不限于:物理世界细粒度视觉感知、空间感知、视频时序行为预测和推理、基于视觉的决策和规划; 2. 多模态数据的制作,包括:训练数据的收集、清理和标注,测试Benchmark的构建; 3. 多模态RL相关研究,包括通过RL提升模型常规感知能力和推理能力; 4. 多模态任务评测,包括:客观的Benchmark接入、OOD评测、以及主观评测。

更新于 2025-11-24北京|杭州