阿里云研究型实习生 - 分布式内存池化场景下的HTAP关键技术
任职要求
1、CCF-A类期刊或者会议论文; 2、相关专利; 3、原型验证系统。
工作职责
数据库的云原生化依赖高效的资源高效解耦,其包括以下两个方面:(1)物理解耦,如存储计算分离使得计算和存储可以独立伸缩。近年来,高速RDMA网络以及CXL内存互联技术的发展,为高速分布式内存池的实现带来了新的契机,其中一个亟需解决的重要问题如何将传统的数据库内存数据结构高效迁移到新型分布式内存池。(2)逻辑解耦。数据库系统中一些后台服务通常会消耗大量的计算与网络资源,如解压缩、加解密、日志合并树的数据重整,与前端业务负载竞争系统资源。如何实现这些服务的无状态化拆分,以及提高拆分服务之间可靠性、互操作性等,实现云上远端下推存在较大挑战。依托以上背景,本项目重点聚焦以下三个问题的研究: 1、探索数据库系统的关键内存数据结构,如hash表,B+tree等在分布式内存池下高效实现、以及数据一致性的轻量化维护问题; 2、HTAP系统负载下的本地/远端内存的高效调度。解决本地/远端内存资源面向不同负载下的最优化动态资源调度问题,包括AI驱动的资源预估、I/O调度、索引推荐等; 3、基于LSM-Tree(日志合并树)的存储引擎的高效逻辑解耦。研究分布式内存池下的共享内存表优化设计,LSM-Tree引擎中的数据重整(compaction)的无状态化的系统设计,利用云上既有资源,如对象存储、消息队列、函数计算等服务,进行数据重整操作的远端下推。
随着互联技术的快速发展,CXL(Compute Express Link)为云原生数据库架构设计与优化带来了全新机遇。CXL通过与本地内存一致的load/store语义,实现硬件支持的内存池化和共享,并支持多种形式的内存扩展。本项目聚焦于探索CXL在云原生数据库中的应用,主要研究内容包括但不限于以下几点: 1. CXL分离式内存场景下的索引设计与优化:研究如何在分离式内存模型中构建高效索引,提升数据访问性能。 2. 基于CXL共享内存的分布式事务协议优化:设计适配CXL共享内存特性的分布式事务协议,提高事务处理效率。 3. 基于CXL共享内存的新分布式锁协议:开发高效的分布式锁机制,以更好支持并发控制。 通过本项目,将充分挖掘CXL在云原生数据库中的潜力,推动架构的灵活性和性能进一步提升。
当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。
基于存储和计算分离的第一代云原生数据库,其CPU和内存资源依然强绑定,导致计算和内存资源不能实现按量付费。因此,本团队对三层解耦技术进行了探索和实现,完全分离数据库内的CPU,内存,存储资源,并构成三个独立的资源池,用户可弹性扩展任何一种资源,且只需为其动态消耗的资源买单。基于以上背景,本项目聚焦但不局限于以下关键问题的研究: 1、基于三层解耦形态的分布式事务机制。在资源三层解耦部署形态下,已有的分布式事务机制不再适用,需研究适用于三层解耦部署形态的高效分布式事务机制; 2、基于三层解耦形态的死锁检测机制。对于并发执行的事务,如何结合三层解耦技术来避免死锁的发生,以及如何尽早检测到死锁并打破死锁,以减少事务执行的等待时间; 3、探索结合机器学习的资源弹性扩缩容机制。如何结合机器学习的方法来对用户业务流量进行预测,并在数据库集群维度对资源进行调度和分配,在满足用户业务对数据库性能需求的同时,提升资源利用率并降低成本。