通义研究型实习生 - Qwen VLA基础模型研究

实习兼职通义研究型实习生2026-02-27地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 来自全球Top高校计算机科学、人工智能、机器学习、深度学习、软件工程、自动化、电子、控制相关领域的博士/硕士在读学生。 
2. 在大规模多模态模型训练、VLA/VLN模型设计与训练、（Real2）Sim2Real、机器人感知、抓取、操作、移动、全身控制、规划、导航、智驾等领域有扎实的理论基础和实践经验，并至少在其中一个方向有代表性学术成果或项目经历。
3. 在国际顶级人工智能/机器人的会议/期刊（如NeurIPS、ICML、ICLR、TPAMI，IROS、RSS、CoRL、ICRA、IJRR、T…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 具身多模态基础模型架构研究： 构建面向机器人的多模态基础模型，将视觉语言模型与机器人中心的物理世界理解与决策深度融合，研究可泛化的（力/触觉）-视觉-语言-状态-动作统一建模和训练方法（包括但不限于：tokenization/latent action/world modeling等技术）；探索“感知-记忆-规划-控制”的端到端或模块化建模和训练范式；研究统一操作，规划，导航等多决策场景统一的建模和训练范式；探索面向长时程任务（系统辨识、历史状态记忆、失败恢复等）的决策。
2. 大规模具身数据构建与训练方法研究：构建可扩展的数据处理管线；研究多数据源的可拓展、高鲁棒使用方法和混合训练方法，包括真机摇操数据、人类视频数据、UMI数据、VQA数据等；探索基于Sim2Real/Real2Sim的数据增强和混合训练技术；建立数据质量评估与采样策略（覆盖度、难度分层、长尾任务挖掘等）。
3. 具身基础模型测评基准与自动化评测系统研究：定义覆盖关键能力和关键场景的有代表性的Benchmark，包括指令理解、物体识别与定位、抓取与操作、导航、工具使用、长任务规划、失败恢复等能力覆盖，厨房、商超、酒旅、户外、工厂等场景覆盖；研究构建高效、可靠、可复现的评测流水线和可用于迭代的指标体系。
4. 高效率、高可靠推理系统研究：将模型在真实机器人平台和主流仿真平台中部署验证，针对延迟、稳定性、安全与可恢复性做工程化增强，研究一套适配具身场景的大规模基础模型端侧/云边协同的推理框架和适配于强化学习训练得推理框架。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

NeurIPS+

ICML+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-跨模型生成能力融合技术研究

实习通义研究型实习生

基于开源的 Diffusion 图像和视频生成模型，构建基础推理和训练引擎，探索前沿的 AIGC 技术，具体职责包括： 1、加入魔搭社区 DiffSynth-Studio 等开源项目的开发，接入先进的图像和视频生成模型，为业界提供领先的推理和训练引擎基建。 2、基于丰富的开源模型生态，探索 AIGC 技术的全新能力，开展多元化的科研项目，包括但不限于图像生成的思维链、跨模态模型的能力集成、理解-生成统一架构模型等，发表高水平学术论文。 3、参与魔搭社区的运营活动，为新模型的开源提供技术支持，推动 AI 技术的普及推广。

更新于 2026-06-17北京|杭州

研究型实习生-LLM分身复刻技术探索

实习通义研究型实习生

阿里巴巴通义实验室-对话智能团队以大模型对话技术为核心，研究及应用方向包括智能客服、个性化对话、角色扮演、分身复刻、社交智能、数字人等，主要业务场景包括： (1) 通义晓蜜—阿里云智能客服，国内对话式AI市占率第一； (2) 通义星尘-类人智能体创作平台。2020年以来，围绕预训练、对话智能、大模型等方向发表80+篇国际顶会论文，欢迎对大模型感兴趣的你加入我们，一起创造人机对话的未来。拟研究技术方向： 1. 角色扮演技术（Role-Playing Agent）的研究，在相关性、人设一致性、吸引力、情感、道德等维度取得显著提升； 2. 分身复刻（Character AI）的研究，探索角色所处虚拟世界建模与演化； 3. 数字专家的研究，包括用户心理推断、策略搜索推理等技术； 4. 多模态Character模型的研究，包括语音端到端角色对话模型。

更新于 2026-05-28北京|杭州

研究型实习生-以人为中心的视频文字理解

实习通义研究型实习生

当前视觉语言模型（VLM）以通用图片和视频理解为主，而人物往往是图片或视频的重要组成部分，因此对图片、视频中的人物进行精准、精细的理解非常重要。本项目重点围绕人物视频，对视频中人物的行为变化、人与人的互动行为、人与物的互动行为等使用文字的方式进行理解。

更新于 2026-05-20杭州

研究型实习生-稀疏视角下的体育场景重建与渲染

实习通义研究型实习生

NeRF&3D GS是很有潜力的新兴3D重建技术，这几年获得非常大的关注，有非常多的进展，但是实时训练和渲染一直是难以克服的问题。本项目拟通过快速、泛化NeRF、3DGS等方法，基于多视角图像的输入，在秒级时间内完内物体、场景重建和新视角图像渲染。

更新于 2026-05-20北京|杭州