阿里云研究型实习生 - 面向AI场景下的数据库资源优化
任职要求
1.扎实的工程能力,优良的编程风格,熟悉JAVA/Python/C++语言和常用设计模式,具备复杂系统的设计开 发调试能力; 2.优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心; 3.熟悉Kubernets,RAY等开源调度框架; 加分项: 1.有突出的学术背景和创新研究能力; 2.有混合算力优化经验。
工作职责
面向AI场景下数据库资源优化系统研发,具体职责包括: 1.设计基于深度强化学习(DRL)的CPU/GPU混合负载调度框架,构建基于负载管理器、资源调度器的动态资源分配模型,实现资源利用率与服务质量(QoS)的联合优化; 2.研发“资源预热+缓存预热+计算编排”混合架构,通过热点数据预测模型、计算节点池化技术及数据预热机制,突破对象存储(OSS)水平弹性的性能瓶颈; 3.基于Neon分支技术改进动态数据隔离机制,设计多分支场景下的共享数据访问优化策略,在零冗余存储前提下保障租户间、branch间安全隔离,同时提升多分支并发场景下的数据访问吞吐量。
面向数据库结构化数据和文件系统非结构化数据,设计并实现一站式的高性能存储底座,优化海量存储场景下元数据库性能,具体研究内容包括但不限于: 1.基于数据库的大规模PB级别数据文件系统的文件metadata管理; 2.支持AI训练和推理的并行文件系统和数据库系统的性能优化; 3.数据库结构化数据和文件系统非结构化数据一站式融合和数据流动、索引构建和检索; 4.跨云并行文件系统。
数据库的云原生化依赖高效的资源高效解耦,其包括以下两个方面:(1)物理解耦,如存储计算分离使得计算和存储可以独立伸缩。近年来,高速RDMA网络以及CXL内存互联技术的发展,为高速分布式内存池的实现带来了新的契机,其中一个亟需解决的重要问题如何将传统的数据库内存数据结构高效迁移到新型分布式内存池。(2)逻辑解耦。数据库系统中一些后台服务通常会消耗大量的计算与网络资源,如解压缩、加解密、日志合并树的数据重整,与前端业务负载竞争系统资源。如何实现这些服务的无状态化拆分,以及提高拆分服务之间可靠性、互操作性等,实现云上远端下推存在较大挑战。依托以上背景,本项目重点聚焦以下三个问题的研究: 1、探索数据库系统的关键内存数据结构,如hash表,B+tree等在分布式内存池下高效实现、以及数据一致性的轻量化维护问题; 2、HTAP系统负载下的本地/远端内存的高效调度。解决本地/远端内存资源面向不同负载下的最优化动态资源调度问题,包括AI驱动的资源预估、I/O调度、索引推荐等; 3、基于LSM-Tree(日志合并树)的存储引擎的高效逻辑解耦。研究分布式内存池下的共享内存表优化设计,LSM-Tree引擎中的数据重整(compaction)的无状态化的系统设计,利用云上既有资源,如对象存储、消息队列、函数计算等服务,进行数据重整操作的远端下推。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。