logo of aliyun

阿里云研究型实习生 - LLM推理中的KVCache优化技术研究和应用

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机或相关方向博士、硕士在读。扎实的工程能力,优良的编程风格,熟悉C++/Go/Python等1至2种语言;
2. 熟悉大模型推理技术,熟悉至少一种推理引擎。熟悉分布式缓存/存储系统;
3. 完成原型系统开发,相关技术经过验证,具有效果,具备合入产品的要求;同时具备清晰的设计文档,包括验证的方法、产品性能、业务落地可行性等报告;
4. 发表CCF-A类或者领域内顶级会议、期刊论文,并申请相关专利。

加分项:
1.在数据库/存储/AI等顶会发表论文经验;
2.代码能力突出,有ACM等竞赛获奖经历;
3. 参与过推理引擎或者存储系统的开源社区。

工作职责


当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。
目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。

基于以上背景,本项目期望聚焦如下技术问题的研究:
1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用;
2.KVCache缓存池的冷热数据分层和压缩等技术应用研究;
3.面向大模型推理的KVCache效果的仿真和模拟量化研究;
4.结合KVCache的AI融合记忆存储系技术研究。
包括英文材料
C+++
Go+
Python+
大模型+
推理引擎+
缓存+
相关职位

logo of aliyun
实习阿里云研究型实习

该职位会专注于大规模离线LLM推理在文本处理场景中的研究和开发,具体职责包括: 1、大模型的量化调优,在较低内存和CPU算力的环境中,依然可以达到较高的token处理和生成速率。 2、常用推理框架(e.g. vLLM, Llama.cpp),在网页文本处理任务上的性能调优,特别是针对质量分计算或者打标场景的调优。 3、中低端GPU对于小参数LLM(1.5B/3B/7B/14B等规格)的推理性能调优。

更新于 2025-04-07
logo of tongyi
实习通义研究型实习生

背景:大语言模型(LLM)评测是LLM开发和应用中的关键环节。基于模型的自动评测技术,面向复杂任务,例如知识推理(Knowledge Reasoning)、多轮会话(Multi-tern Dialogue)、文本生成(Text generation)等,具有独特的优势,逐渐成为学术界和工业界关注的热点。 涵盖技术点包括: 1. 基于裁判员模型的自动评测技术(Model-based Automatic Evaluation for LLM),涉及LLM/RL相关模型的算法设计、训练、推理等内容 2. 基于模型的自动评测框架设计,裁判员模型在不同任务和细分领域的性能优化

更新于 2024-11-14
logo of aliyun
实习阿里云研究型实习

随着AI大模型的兴起和各行业对于GPU算力需求的提升,各大云厂商均在提供多租户、serverless化的GPU算力供给以支持AI开发、训练、推理等负载。其中,由于大模型越来越多地被投入实际应用,大模型推理服务所占的比重也在不断上升。然而,考虑到大模型自身的新特性以及多租户serverless集群的复杂性,如何以更高的效率及更低的成本服务众多客户的模型,仍然是一个颇具技术挑战的问题,也是提升集群整体效率的关键。本项目旨在将微观的模型推理计算优化与宏观的集群层面资源、模型、请求等编排与调度进行结合,为多租户serverless推理服务降本增效。 与传统的推理服务产品形态相比,在多租户集群中部署大模型推理服务呈现一系列新特性,包括但不限于: 1、动态性:大模型推理由于其特有的自回归计算模式,其执行过程呈现高度的动态性,结合推理请求到达时间、输入输出长度等因素的不确定性,推理执行过程往往难以预测。因此对大模型推理服务进行资源供给和调度,以及提供SLO保障等就更具挑战; 2、多服务/多模型:多租集群会同时部署多个不同租户的推理服务;同时,在同一个推理服务内,也可能包含不同模型种类,如一个基模型的不同尺寸、不同精度版本等; 3、资源共享:大模型天然呈现资源密集的特性,这也使得在多租户集群中进行多服务、多模型资源共享和复用更具挑战,需要模型/请求调度层面的感知进行协同优化; 4、异构硬件/计算模式:多租户集群中往往具备多种加速器硬件类型,不同模型类型以及推理计算的不同阶段(aka prefill/decode)对异构硬件的喜好程度也各不相同,需要更具针对性的资源分配以提升资源利用效率。 本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多租户serverless推理服务的效率: 1、平台层:定义多租户serverless推理服务的云产品形态,以及相应的计费模式、SLO等形态; 2、调度层:设计多租集群中的服务-模型-请求的统一调度架构,给出高可扩展的系统架构和高效的调度策略设计; 3、引擎层:归纳并实现上述产品和调度层面所需的引擎层次机制需求,例如高效的模型加载、切换、抢占,多模型共置,等等。

更新于 2024-07-22
logo of tongyi
实习通义研究型实习生

随着大语言模型(LLM)在自然语言处理中的推理能力不断提升,越来越多的研究开始关注其在代码领域的应用。本项目聚焦于提升大语言模型在代码生成、代码修复以及代码推理等方面的表现。为了进一步优化模型的性能,本项目将采用强化学习(RL)技术,通过自我反馈和动态调整来提高模型在复杂代码任务中的理解与生成能力。 我们专注于解决以下关键技术问题: 1. 面向代码的推理数据构建:我们将开发面向代码合成的数据集,设计代码推理链,并探索可扩展的监督学习方法,为强化学习模型提供高质量的输入数据。 2. 面向代码的强化学习策略:我们将设计更高效的训练算法,并探索强化学习在人类反馈(RLHF)和人工智能反馈(RLAIF)领域的应用,以优化模型在代码生成与修复任务中的表现。

更新于 2024-10-14