logo of tongyi

通义研究型实习生 - 超长视频内容理解算法研究

实习兼职通义研究型实习生地点:北京 | 杭州 | 上海状态:招聘

任职要求


必备条件:
1. 硕士及以上学历,计算机、人工智能、电子、机器人等相关专业。
2. 在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。
3. 深入理解深度学习计算机视觉自然语言处理基础知识,对VLM/MLLM模型原理有清晰认识。
4. 具备良好的团队合作精神和沟通能力,对解决富有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责超长视频内容的前沿算法研究、实现与优化,重点攻克高效的长视频处理机制,如关键帧选择、特征压缩和记忆机制。
2. 参与构建和清洗大规模多模态数据集,优化长视频理解在视频问答、内容摘要等任务上的准确率,优化视频场景下模型的推理能力。
3. 具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。
包括英文材料
学历+
OpenCV+
机器学习+
深度学习+
NLP+
还有更多 •••
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 在当今信息爆炸的时代,长文本的处理能力成为了学术界和工业界的研究热点,尤其是大语言模型(LLM)在这一领域的广泛应用。然而,许多现存的长文档、书籍和网页并不仅仅以文本的形式呈现,它们通常还包含着丰富的其他模态信息,如图表、图像、视频等。这些信息往往以图文混合的形式整合在一起,带来了更为复杂的理解和分析挑战。同时,它们的长度也不是现有的VLM可以处理得。 本研究课题旨在探讨如何增强大语言模型对超长多模态信息的理解能力,以便其能够更加准确地响应用户的问题。

北京|杭州
logo of aliyun
实习阿里云研究型实习

专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括: 探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署; 深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎; 分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。

更新于 2025-02-13杭州
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 随着数字化转型加速,安全领域积累了大量超长复杂数据,如多模态接口流量、细粒度行为日志等,其单条数据长度常达数万字符,且蕴含专业领域知识与隐蔽风险特征。传统机器学习模型受限于语义理解能力不足,面临风险误判率高、上下文关联断裂等瓶颈。尽管大语言模型展现出卓越的认知推理潜力,但在处理超长安全数据时仍存在注意力漂移、关键信息丢失等问题,导致风险检测准召率下降。本项目聚焦大模型在安全场景下的长文本处理边界突破,通过创新数据表征与推理架构,构建适配安全领域特性的超长数据处理范式,为提升安全威胁的智能化研判提供技术支撑。

北京
logo of alibaba
实习淘天集团研究型实

1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。

更新于 2025-08-05杭州