logo of aliyun

阿里云研究型实习生 - 云原生向量数据库核心架构优化

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1.计算机科学博士/硕士在读,在数据库、人工智能、系统等领域有顶会论文发表经验优先;
2.精通C/C++CUDA编程,熟悉LSM-tree等存储结构;
3.有FPGA/GPU加速开发经验者优先;
4.熟悉分布式一致性协议与RDMA编程。

工作职责


1.研发新一代向量数据压缩存储格式;
2.设计基于JIT的索引快速预热机制;
3.优化磁盘-内存-GPU数据传输流水线;
4.开发分布式一致性内存管理组件。
包括英文材料
C+
C+++
CUDA+
FPGA+
相关职位

logo of aliyun
实习阿里云研究型实习

随着数据量的爆炸性增长以及业务复杂性的增加,诸如图、文档、时空、时序等非结构化数据类型规模和价值都越发重要。需要研究更有效率的非结构化数据的处理、存储、分析的技术,尤其是与结构化数据融合进行分析的手段,将来自不同来源、格式、结构或模型的数据整合到一个统一的系统中,以实现数据共享、分析和决策支持。 我们的研究内容包括: 1. GPU加速的多模态数据处理,如fts、向量检索以及索引建立。GPU高效池化以及远程GPU调用,查询算子以及后台数据重整任务的高效远程GPU卸载; 2. 非结构化数据,如json、文档等自动语义发现与解析、数据模式匹配与语义对齐、对象关联分析。结合NLP等技术,实现从原始数据到结构化语义的高效转化; 3. OLTP高效入湖。结合数据湖的灵活性(存储非结构化数据)与数据仓库的结构化管理能力(如ACID、事务支持、元数据管理),通过存储层创新、计算引擎优化和云原生技术,实现不同业务的高效协同。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

Tair是基于云原生基础设施的KV数据库产品。在技术上期望通过云的规模化效应,基于云基础设施,面向海量的各种规模的客户提供更低的成本和更好的弹性。从工程实践和业务分析上看到对比当前主流的单租户架构模式,多租户的架构聚合度提升带来的成本优化能极大的提升云数据库的竞争力,但同时在租户影响上面对的挑战也比较大。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.优化KV存储引擎在复杂流量场景和多租户场景的延迟表现; 2.KV存储引擎在多租户场景下的资源隔离、限流相关技术研究; 3.研发多租的分布式KV集群如何在提升弹性的同时能更高效的利用资源。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

随着互联技术的快速发展,CXL(Compute Express Link)为云原生数据库架构设计与优化带来了全新机遇。CXL通过与本地内存一致的load/store语义,实现硬件支持的内存池化和共享,并支持多种形式的内存扩展。本项目聚焦于探索CXL在云原生数据库中的应用,主要研究内容包括但不限于以下几点: 1. CXL分离式内存场景下的索引设计与优化:研究如何在分离式内存模型中构建高效索引,提升数据访问性能。 2. 基于CXL共享内存的分布式事务协议优化:设计适配CXL共享内存特性的分布式事务协议,提高事务处理效率。 3. 基于CXL共享内存的新分布式锁协议:开发高效的分布式锁机制,以更好支持并发控制。 通过本项目,将充分挖掘CXL在云原生数据库中的潜力,推动架构的灵活性和性能进一步提升。

更新于 2024-11-27
logo of aliyun
实习阿里云研究型实习

Tair是基于云原生基础设施的Key-Value云数据库产品。在产品技术上期望通过云的规模化效应,基于云基础设施,面向海量大中小客户提供更加低成本和更好的弹性。 从工程实践和业务分析上看到对比当前主流的单租户架构模式,多租户的架构聚合度提升带来的成本优化能极大的提升云的竞争力,但同时在安全合规和租户影响上面对的挑战也比较大。 对比传统Share-Nothing架构的,Disk-Disaggregation, Memory-Disaggregation等技术在资源的快速弹性上带来很大的提升,也同样需要面对资源池化后的延迟一致性等问题。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1、优化KV存储引擎在多租户场景的延迟表现; 2、KV存储引擎在多租户场景下的资源隔离、限流相关技术研究。

更新于 2024-07-15