logo of tongyi

通义研究型实习生-以人为中心的视频文字理解

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


候选人应为:
1、计算机及相关专业的博士或硕士研究生;
2、对视觉语言模型相关技术有了解…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


当前视觉语言模型(VLM)以通用图片和视频理解为主,而人物往往是图片或视频的重要组成部分,因此对图片、视频中的人物进行精准、精细的理解非常重要。本项目重点围绕人物视频,对视频中人物的行为变化、人与人的互动行为、人与物的互动行为等使用文字的方式进行理解。
包括英文材料
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: AIGC持续发展,以人为中心的图像、视频、语音等模型的生成能力愈发成熟,最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品,迅速走进大众,AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控,所有模态All-in-one的omini模型目前尚未有好的工作,同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式,以及世界模型思路下去预测未来攻击的方案,都是当下可以探索的思路,目标是围绕AI信息原生可信打造成安全特色能力。

北京|上海|杭州
logo of aliyun
实习阿里云研究型实习

随着数据量的爆炸性增长以及业务复杂性的增加,诸如图、文档、时空、时序等非结构化数据类型规模和价值都越发重要。需要研究更有效率的非结构化数据的处理、存储、分析的技术,尤其是与结构化数据融合进行分析的手段,将来自不同来源、格式、结构或模型的数据整合到一个统一的系统中,以实现数据共享、分析和决策支持。 我们的研究内容包括: 1. GPU加速的多模态数据处理,如fts、向量检索以及索引建立。GPU高效池化以及远程GPU调用,查询算子以及后台数据重整任务的高效远程GPU卸载; 2. 非结构化数据,如json、文档等自动语义发现与解析、数据模式匹配与语义对齐、对象关联分析。结合NLP等技术,实现从原始数据到结构化语义的高效转化; 3. OLTP高效入湖。结合数据湖的灵活性(存储非结构化数据)与数据仓库的结构化管理能力(如ACID、事务支持、元数据管理),通过存储层创新、计算引擎优化和云原生技术,实现不同业务的高效协同。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

职位描述: 1、参与Agent系统的原型构建与落地,探索提升Agent自主理解、规划与执行任务能力的新思路与方法; 2、优化Agent的对话交互机制,尝试新颖的交互方式,以提升用户体验和任务完成的流畅性与智能性; 3、研究并实验Agent的知识整合与上下文记忆管理方案,探索更高效、智能的信息组织与检索技术,支持Agent进行更深层次的思考; 4、探索Agent与系统工具、API的智能协同策略,参与设计和验证更鲁棒、灵活的工具调用与任务规划流程,鼓励提出创新交互方案; 5、针对特定复杂场景,调研并实践Agent解决用户实际问题的创新路径,挑战并拓展Agent的能力边界。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。

更新于 2025-07-02杭州