logo of antgroup

蚂蚁金服研究型实习生-超长多模态理解模型

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScriptGo
-具有上述研究领域的…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


研究领域:
  人工智能
项目简介:
  在当今信息爆炸的时代,长文本的处理能力成为了学术界和工业界的研究热点,尤其是大语言模型(LLM)在这一领域的广泛应用。然而,许多现存的长文档、书籍和网页并不仅仅以文本的形式呈现,它们通常还包含着丰富的其他模态信息,如图表、图像、视频等。这些信息往往以图文混合的形式整合在一起,带来了更为复杂的理解和分析挑战。同时,它们的长度也不是现有的VLM可以处理得。

本研究课题旨在探讨如何增强大语言模型对超长多模态信息的理解能力,以便其能够更加准确地响应用户的问题。
包括英文材料
学历+
Java+
C+
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

1. 负责超长视频内容的前沿算法研究、实现与优化,重点攻克高效的长视频处理机制,如关键帧选择、特征压缩和记忆机制。 2. 参与构建和清洗大规模多模态数据集,优化长视频理解在视频问答、内容摘要等任务上的准确率,优化视频场景下模型的推理能力。 3. 具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。

更新于 2025-12-18北京|杭州|上海
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 随着数字化转型加速,安全领域积累了大量超长复杂数据,如多模态接口流量、细粒度行为日志等,其单条数据长度常达数万字符,且蕴含专业领域知识与隐蔽风险特征。传统机器学习模型受限于语义理解能力不足,面临风险误判率高、上下文关联断裂等瓶颈。尽管大语言模型展现出卓越的认知推理潜力,但在处理超长安全数据时仍存在注意力漂移、关键信息丢失等问题,导致风险检测准召率下降。本项目聚焦大模型在安全场景下的长文本处理边界突破,通过创新数据表征与推理架构,构建适配安全领域特性的超长数据处理范式,为提升安全威胁的智能化研判提供技术支撑。

北京
logo of tongyi
实习通义研究型实习生

专注于文档理解、推理、生成大模型的研究、探索和开发,具体职责包括: 1、通过研究长文本压缩算法、multi-agent协同、long cot、数据自动合成技术等提升超长文本、多文档能力; 2、通过研究PPO、DPO、RFT、GRPO等强化学习技术,提升文档大模型的推理能力、复杂指令遵循和泛化性; 3、研究文档创作技术,提升大模型的写作、纠错、改写、仿写、风格化、长文本输出、字数遵循等创作能力; 4、研究多模态文档解析和理解技术,提升多模态文档细粒度理解、多模态多页长文档、多模态复杂推理等技术; 5、研究面向法律行业文档理解和推理关键技术。

更新于 2025-02-26北京|杭州
logo of alibaba
实习淘天集团研究型实

1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。

更新于 2025-08-05杭州