通义研究型实习生-大模型的解码干预技术
任职要求
候选人应为: 1.计算机及相关专业的博士或硕士研究生,在机器学习、自然语言处理或Transformer结构上有研究工作发表; 2.对推理解码算法有充分的兴趣;需要有比较好的代码实现能力; 3.熟悉PyTorch,最好了解vLLM等LLM推理相关系统; 4.需要产出论文和专利等高水平的学术成果。
工作职责
随着大规模语言模型(LLM)的规模效应在训练数据与参数大小上的显著提升,解码方案的优化也逐渐成为提升模型生成性能的关键。通过在解码过程中投入一定的计算量,可以显著提高模型的生成质量和效率。通义千问模型已经在全球范围内取得了领先的模型效果,为进一步探索解码干预方案提供了坚实的基础。 本项目旨在探索以下一项或多项技术问题,以进一步提升大规模语言模型的解码性能: - 解码过程控制:研究如何对解码过程进行有效控制,提升模型处理复杂问题的能力。例如,如何通过动态调整解码策略来应对不同类型的输入,或在生成过程中引入更多的上下文信息。 - 大小模型结合的解码干预:研究如何通过训练小模型来干预大模型的行为,从而在不显著影响大模型整体性能的前提下,提升特定任务的生成质量或效率。这包括如何设计小模型的架构、如何与大模型进行有效的交互。 - 长文本解码方案:研究如何通过修改attention计算方式或其他解码算法,实现更好的长文本生成外推能力,或提升长文本生成的效率。这包括如何处理长依赖关系、如何优化内存使用,以及如何在生成过程中保持高质量的输出。
本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。
当前,大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世,其热度达到了空前的水平。目前,业界已经发布了众多多模态模型,例如:CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展,也带来了新的挑战,对训练框架的效率要求越来越高: 1、不同模态数据的异质性:不同模态(如图像、文本、音频、视频)有各自的编码器(encoder)和解码器(decoder),这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点,实现高效调度和优化。 2、数据的多样性:处理的数据模态类型多样化(如纯文本、文本+图像、文本+音频、文本+视频+音频等),且模态内的数据也可能动态变化。例如,图像的数量和大小,音频的长度等都可能不同。 现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此,迫切需要对现有框架进行改进和优化,以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多模态大模型训练效率: 1、多模态场景并行策略研究,以PP为例,当前的PP并行策略都是按layer粒度均分,但多模态间的异构性会给PP并行提出更高的要求,多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度,支持细粒度PP划分和调度,探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究,多模态场景总序列长度会比llm场景长很多,并且不同模态的seq len长度还是动态,在动态长序列场景怎么进行高效训练。
大模型借助庞大的文本语料和巨量的计算资源,展现出了惊人的性能表现。之前大量的研究工作聚焦于模型参数量、计算量以及数据总量的scaling law,忽略了模型中词汇量的大小对模型的影响。大的词汇量会提升分词的压缩比,从而提升模型的训练和推理效率,但词汇量应该增大到何种程度,以及不同规模的模型对词汇量的需求是否一致等这些关键且基础的问题仍需要进一步的探索。我们期望将相应的技术路线充分探索并加以优化以大幅提升通义千问模型的训练和推理的效率和性能。 拟解决技术问题: 研究构建高效大模型词表的方式 研究大模型词表对模型输出质量的影响 研究不同规模、不同数据下模型词表大小对模型性能的影响 研究通过词表压缩技术减少模型参数量且保持性能