logo of tongyi

通义研究型实习生-以人为中心的视频文字理解

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


候选人应为:
1、计算机及相关专业的博士或硕士研究生;
2、对视觉语言模型相关技术有了解,并参与过有关的研究或技术项目;
3、加分项:发表过1篇及以上CCF-A类文章(一作)。

工作职责


当前视觉语言模型(VLM)以通用图片和视频理解为主,而人物往往是图片或视频的重要组成部分,因此对图片、视频中的人物进行精准、精细的理解非常重要。本项目重点围绕人物视频,对视频中人物的行为变化、人与人的互动行为、人与物的互动行为等使用文字的方式进行理解。
包括英文材料
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: AIGC持续发展,以人为中心的图像、视频、语音等模型的生成能力愈发成熟,最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品,迅速走进大众,AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控,所有模态All-in-one的omini模型目前尚未有好的工作,同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式,以及世界模型思路下去预测未来攻击的方案,都是当下可以探索的思路,目标是围绕AI信息原生可信打造成安全特色能力。

logo of tongyi
实习通义研究型实习生

多语言语音交互以其直观便捷的特性,在同声传译、跨国沟通及多语言辅助工具等领域展现出超越文本的自然互动优势。语音的独特价值在于它蕴含情感、语调、环境背景乃至说话者的性别与方言信息,这些额外维度极大丰富了信息内容。OpenAI的GPT4o及Google的Astra等前沿成果,彰显了卓越的多语言语音助手性能,震撼业界。我们拟探索多语言文本语音对齐技术,构建多语言、低延迟、可控的多语言同声传译翻译系统。

更新于 2024-11-14
logo of aliyun
实习阿里云研究型实习

以语言大模型为代表的AI如火如荼,但在NL2SQL这个数据库垂直技术领域, 纯粹依赖大模型存在推理速度慢,生成准确度不稳定等不足。 该研发项目围绕在大模型结合小模型,用小模型在专域上加强大模型的不足作为突破点,将大模型的能力延展到以SQL语法为引导下开发的小模型工具。目标是让NL2SQL能力成为大模型在数据库查询领域的一个专用工具, 做到快速, 准确,高效。

更新于 2024-07-15
logo of alibaba
实习淘天集团研究型实

阿里妈妈-决策智能平台团队致力于以前沿视角攻克广告决策智能领域的重大挑战,研发面向未来的决策智能技术,推动技术向更高层次发展,为业务提供强劲动力。 我们在决策智能领域有丰厚的技术底蕴,在NeurIPS、KDD、WWW等国际高水平会议上发表学术论文,并通过技术创新显著提升业务效果。2024年我们还在NeurIPS组织了比赛&Workshop,并开源了大规模的Benchmark。 决策智能技术是人工智能的关键研究领域,在大型博弈环境中有广泛应用,例如在线广告、金融市场、电子商务和能源交易。在线广告是典型的大型博弈场景,随着生成算法在广告决策领域的初步成功应用,我们相信决策领域的大模型蕴藏着巨大潜力和广阔的技术探索空间。 具体职责: 1. 深入运用生成算法(如Diffusion、Transformer等)对出价决策模型进行探索与迭代,研究出价决策大模型的Scaling Law。 2. 利用大规模跨场景数据和大规模参数学习博弈场景的通用规律,构建出价决策领域的基础模型。 加入我们,您将获得: 1. 贴近工业实践的技术挑战,享有丰富的数据资源和强大的计算支持。 2. 深度参与研发团队内部研讨,与顶尖专家共同探讨前沿技术,合作发表国际顶级会议论文。 3. 一对一的行业专家指导,助力业界领先并具有巨大影响力的工作。 4. 可观的实习薪酬以及校招人才计划的绿色通道。

更新于 2025-06-24