阿里云研究型实习生 - 多模态终端大模型
任职要求
1、计算机科学、人工智能、软件工程或相关专业,博士优先; 2、有成果发表在CVPR、ICCV、NeurIPS、ICLR等国际顶级会议者优先; 3、需要产出论文和专利等高水平的学术成果。
工作职责
随着大模型(VLM/LLM)的持续迭代与广泛落地,模型正快速渗透至智能汽车、具身智能、智能手机、AI 眼镜等物理终端。新的使用场景与部署环境对模型的多模交互、空间感知推理、工具使用能力、时延与能效提出了更高要求。 我们希望你加入,推动“物理AI”的技术范式升级,打造高效率、低时延、可规模化的多模态智能终端。项目包括但不限于如下待探索的细分关键研究方向: 1、面向多模态 Agent 的强化学习,支撑从“指令模型”向“可感知、可规划、可执行”的 Agent 升级; 2、智能终端大模型能力,涉及终端多模态模型后训练、模型能力attention优化,MoE推理优化、模型稀疏化、低比特量化等,提供低内存、高吞吐率的模型范式; 3、提升模型在空间感知理解、工具调用、推理等场景上的能力,探索新的具身范式。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
专注于数据湖场景下向量化和多模态数据存储和分析系统的研究、探索和开发,具体职责包括: 1、探索和研究高效可扩展的向量索引和分级存储算法,支持超大规模向量数据存储和检索; 2、探索和研究高性能的多模态数据检索和查询算法,支持大数据AI一体化场景下的融合分析; 3、分析现有向量索引算法和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云Milvus和EMR 产品服务,提供可靠高效的向量存储和检索方案,支持不同行业和规模的客户场景; 5、面向数据湖仓场景构建业界领先的多模态数据查询分析解决方案。
当前,大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世,其热度达到了空前的水平。目前,业界已经发布了众多多模态模型,例如:CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展,也带来了新的挑战,对训练框架的效率要求越来越高: 1、不同模态数据的异质性:不同模态(如图像、文本、音频、视频)有各自的编码器(encoder)和解码器(decoder),这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点,实现高效调度和优化。 2、数据的多样性:处理的数据模态类型多样化(如纯文本、文本+图像、文本+音频、文本+视频+音频等),且模态内的数据也可能动态变化。例如,图像的数量和大小,音频的长度等都可能不同。 现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此,迫切需要对现有框架进行改进和优化,以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多模态大模型训练效率: 1、多模态场景并行策略研究,以PP为例,当前的PP并行策略都是按layer粒度均分,但多模态间的异构性会给PP并行提出更高的要求,多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度,支持细粒度PP划分和调度,探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究,多模态场景总序列长度会比llm场景长很多,并且不同模态的seq len长度还是动态,在动态长序列场景怎么进行高效训练。
RAG(Retrieval-Augmented Generation)检索增强生成技术伴随着LLM技术爆发迅速发展,广泛应用于文档问答、智能客服、技术支持等实际业务场景。 在上述场景中,除了纯文本内容效果已经发展到一定水平,图片、表格、代码等多模态的内容的RAG还处于比较初级阶段,目前技术很难解决实际业务问题。 多模态RAG效果重要的效果瓶颈之一在于多模态检索技术,如何将多模态信息统一表征到同一个向量化空间中,结合向量检索技术提升多模态检索效果是很有挑战的问题。 除了上述场景,多模态RAG通过和音频、视频等模态的结合,必定还有更多的业务场景可以挖掘。