通义研究型实习生-多模态通用运动表征技术研究
任职要求
1、计算机及相关专业的博士或硕士研究生,对视觉模型相关技术有了解,并参与过有关的研究或技术项目; 2、扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式; 3、优良的沟通表达能力、团队合作意识和经验,具备快速学习的能力,以及深入钻研技术问题的耐心。 加分项: 1、有突出的学术背景和创新研究能力; 2、发表过1篇及以上CCF-A类文章(一作); 2、竞赛获奖经历;
工作职责
专注于多模态通用运动表征技术的研究,具体职责包括: 1、构建一个多模态大模型框架,能够对现有多媒体素材中运动信息进行学习,输出在特定类目/物品在指定环境下运动规律的个性化表征; 2、基于上述运动表征,能够恢复、迁移到指定类目及场景下的运动效果,生成对应的视频素材; 3、模型能够拓展到通用物体场景,包含刚性/非刚性物体、被动/主动运动物体、相机视角变化/主体运动; 4、负责算法研发过程中的数据构建工作。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
研究领域: 深度学习 项目简介: 在商品领域风险/质量防控、信息抽取、素材优化、营销文案生成和人货匹配推荐等多个场景都依赖对商品的认知,传统的方法需要运营人工定义标签体系并收集大量的标注数据,多模态大模型可以在较少的人力投入和标注成本下实现更好的商品理解和生成,有很大的应用前景。
研究领域: 人工智能 项目简介: 多模态模型在图像生成、文本生成、语音合成等多个领域取得了显著进展。然而,现有的多模态模型往往侧重于单一任务,如生成任务或理解任务,缺乏在生成和理解之间建立有效互动的机制。这种割裂导致了模型在处理复杂任务时的局限性,例如生成高质量的图像或文本时缺乏丰富的语义信息,而在理解和推理任务中又难以捕捉到低层次的视觉细节。 此外,当前最新的自监督学习(如SD-DiT,Return of Unconditional Generation)和一些生成模型的研究(如Representation Alignment for Generation)表明,生成任务和理解任务之间存在互补关系。生成任务能够提供低层次的视觉细节,有助于提高表示学习的质量;而理解任务则能够提供高层次的语义信息,有助于生成模型生成更具意义的内容。因此,构建一个能够同时处理生成和理解任务的统一模型,对于推动多模态模型的发展具有重要意义。 技术价值 多模态生成与理解的互补:通过将生成任务与理解任务相结合,可以生成更具语义丰富性和视觉细节的高质量图像和文本,满足更多应用场景的需求。 提升表示学习质量:生成任务提供的低层次视觉细节可以增强表示学习的质量,提高模型在理解和推理任务中的表现。 创新研究方法:探索生成任务和理解任务之间的相互作用机制,为多模态模型的理论研究提供新的视角和方法。 业务价值 提升用户体验:在探一探和支小宝等多模态多任务耦合的复杂场景中提升性能,改善用户留存。 拓展应用场景:通过统一模型和更高性能有助于探索更多复杂业务落地。
研究领域: 人工智能 项目简介: 多模态长序列理解: 对多模态长序列理解能力的提升可以广泛应用在小时级长视频理解、多页长文档报告解读等场景,本项目主要探索提升多模态大模型对长序列的建模能力,构建多模态"大海捞针"benchmark, 并在多模态长序列理解任务如长视频理解、多页文档解析等任务上实现SOTA效果; 复杂视觉任务推理: 思维链在大语言模型已经取得了显著进展,但在多模态大模型中进展有限,制约了多模态模型在复杂推理任务中的表现,主要存在以下痛点:多模态复杂推理数据缺乏、视觉模块的感知局限性、缺乏成熟的多模态的推理scaling law方法。本研究重点推进基于RL的多模态推理Scaling law, 以提升百灵多模态大模型在复杂多模态推理任务上的业界的领先性。