阿里云研究型实习生 - 分布式内存池化场景下的HTAP关键技术
任职要求
1、CCF-A类期刊或者会议论文;…
工作职责
数据库的云原生化依赖高效的资源高效解耦,其包括以下两个方面:(1)物理解耦,如存储计算分离使得计算和存储可以独立伸缩。近年来,高速RDMA网络以及CXL内存互联技术的发展,为高速分布式内存池的实现带来了新的契机,其中一个亟需解决的重要问题如何将传统的数据库内存数据结构高效迁移到新型分布式内存池。(2)逻辑解耦。数据库系统中一些后台服务通常会消耗大量的计算与网络资源,如解压缩、加解密、日志合并树的数据重整,与前端业务负载竞争系统资源。如何实现这些服务的无状态化拆分,以及提高拆分服务之间可靠性、互操作性等,实现云上远端下推存在较大挑战。依托以上背景,本项目重点聚焦以下三个问题的研究: 1、探索数据库系统的关键内存数据结构,如hash表,B+tree等在分布式内存池下高效实现、以及数据一致性的轻量化维护问题; 2、HTAP系统负载下的本地/远端内存的高效调度。解决本地/远端内存资源面向不同负载下的最优化动态资源调度问题,包括AI驱动的资源预估、I/O调度、索引推荐等; 3、基于LSM-Tree(日志合并树)的存储引擎的高效逻辑解耦。研究分布式内存池下的共享内存表优化设计,LSM-Tree引擎中的数据重整(compaction)的无状态化的系统设计,利用云上既有资源,如对象存储、消息队列、函数计算等服务,进行数据重整操作的远端下推。
当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。
随着互联技术的快速发展,CXL(Compute Express Link)为云原生数据库架构设计与优化带来了全新机遇。CXL通过与本地内存一致的load/store语义,实现硬件支持的内存池化和共享,并支持多种形式的内存扩展。本项目聚焦于探索CXL在云原生数据库中的应用,主要研究内容包括但不限于以下几点: 1. CXL分离式内存场景下的索引设计与优化:研究如何在分离式内存模型中构建高效索引,提升数据访问性能。 2. 基于CXL共享内存的分布式事务协议优化:设计适配CXL共享内存特性的分布式事务协议,提高事务处理效率。 3. 基于CXL共享内存的新分布式锁协议:开发高效的分布式锁机制,以更好支持并发控制。 通过本项目,将充分挖掘CXL在云原生数据库中的潜力,推动架构的灵活性和性能进一步提升。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。