通义研究型实习生-以人为中心的视频文字理解

实习兼职通义研究型实习生2026-05-20地点：杭州状态：招聘

扫码手机上打开

任职要求

候选人应为：
1、计算机及相关专业的博士或硕士研究生；
2、对视觉语言模型相关技术有了解…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

当前视觉语言模型（VLM）以通用图片和视频理解为主，而人物往往是图片或视频的重要组成部分，因此对图片、视频中的人物进行精准、精细的理解非常重要。本项目重点围绕人物视频，对视频中人物的行为变化、人与人的互动行为、人与物的互动行为等使用文字的方式进行理解。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

研究型实习生-以Deepseek-OCR为典范的大模型压缩技术在密集文本凭证识别场景的应用研究

实习研究型实习生

研究领域：多模态大模型项目简介：当前，凭证识别主要有2大痛点，1是大模型在密集文档识别上的速度过慢、精度不够，2是在面对文本内容细微差异的情况下，往往难以准确识别和处理。这些问题都影响了业务使用的体验和流畅性，增加了业务消费的成本。本项目旨在推动更前沿的大模型压缩与高精度文字识别技术在智能凭证上的应用，提高凭证识别的准确率，增强产品的行业竞争力。

更新于 2026-06-01北京|上海|杭州

研究型实习生-跨模型生成能力融合技术研究

实习通义研究型实习生

基于开源的 Diffusion 图像和视频生成模型，构建基础推理和训练引擎，探索前沿的 AIGC 技术，具体职责包括： 1、加入魔搭社区 DiffSynth-Studio 等开源项目的开发，接入先进的图像和视频生成模型，为业界提供领先的推理和训练引擎基建。 2、基于丰富的开源模型生态，探索 AIGC 技术的全新能力，开展多元化的科研项目，包括但不限于图像生成的思维链、跨模态模型的能力集成、理解-生成统一架构模型等，发表高水平学术论文。 3、参与魔搭社区的运营活动，为新模型的开源提供技术支持，推动 AI 技术的普及推广。

更新于 2026-06-17北京|杭州

研究型实习生-LLM分身复刻技术探索

实习通义研究型实习生

阿里巴巴通义实验室-对话智能团队以大模型对话技术为核心，研究及应用方向包括智能客服、个性化对话、角色扮演、分身复刻、社交智能、数字人等，主要业务场景包括： (1) 通义晓蜜—阿里云智能客服，国内对话式AI市占率第一； (2) 通义星尘-类人智能体创作平台。2020年以来，围绕预训练、对话智能、大模型等方向发表80+篇国际顶会论文，欢迎对大模型感兴趣的你加入我们，一起创造人机对话的未来。拟研究技术方向： 1. 角色扮演技术（Role-Playing Agent）的研究，在相关性、人设一致性、吸引力、情感、道德等维度取得显著提升； 2. 分身复刻（Character AI）的研究，探索角色所处虚拟世界建模与演化； 3. 数字专家的研究，包括用户心理推断、策略搜索推理等技术； 4. 多模态Character模型的研究，包括语音端到端角色对话模型。

更新于 2026-05-28北京|杭州

研究型实习生-稀疏视角下的体育场景重建与渲染

实习通义研究型实习生

NeRF&3D GS是很有潜力的新兴3D重建技术，这几年获得非常大的关注，有非常多的进展，但是实时训练和渲染一直是难以克服的问题。本项目拟通过快速、泛化NeRF、3DGS等方法，基于多视角图像的输入，在秒级时间内完内物体、场景重建和新视角图像渲染。

更新于 2026-05-20北京|杭州