logo of aliyun

阿里云研究型实习生 - 云原生多租KV数据库的隔离与调度优化研究和应用

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机或相关方向博士、硕士在读。扎实的工程能力,优良的编程风格,熟悉C++/Java/Go/Python等1至2种语言;
2. 熟悉数据库/存储系统和优化技术,例如存储引擎(LSM/B+树),分布式系统弹性调度等;
3. 完成原型系统开发,相关技术经过验证,具有效果,具备合入产品的要求;同时具备清晰的设计文档,包括验证的方法、产品性能、业务落地可行性等报告;
4. 发表CCF-A类或者领域内顶级会议、期刊论文,并申请相关专利。

加分项:
1.在数据库/存储/系统等顶会发表论文经验;
2.代码能力突出,有ACM等竞赛获奖经历;
3. 参与过数据库/存储系统的开源社区。

工作职责


Tair是基于云原生基础设施的KV数据库产品。在技术上期望通过云的规模化效应,基于云基础设施,面向海量的各种规模的客户提供更低的成本和更好的弹性。从工程实践和业务分析上看到对比当前主流的单租户架构模式,多租户的架构聚合度提升带来的成本优化能极大的提升云数据库的竞争力,但同时在租户影响上面对的挑战也比较大。

基于以上背景,本项目期望聚焦如下技术问题的研究:
1.优化KV存储引擎在复杂流量场景和多租户场景的延迟表现;
2.KV存储引擎在多租户场景下的资源隔离、限流相关技术研究;
3.研发多租的分布式KV集群如何在提升弹性的同时能更高效的利用资源。
包括英文材料
C+++
Java+
Go+
Python+
B+树+
分布式系统+
相关职位

logo of aliyun
实习阿里云研究型实习

Tair是基于云原生基础设施的Key-Value云数据库产品。在产品技术上期望通过云的规模化效应,基于云基础设施,面向海量大中小客户提供更加低成本和更好的弹性。 从工程实践和业务分析上看到对比当前主流的单租户架构模式,多租户的架构聚合度提升带来的成本优化能极大的提升云的竞争力,但同时在安全合规和租户影响上面对的挑战也比较大。 对比传统Share-Nothing架构的,Disk-Disaggregation, Memory-Disaggregation等技术在资源的快速弹性上带来很大的提升,也同样需要面对资源池化后的延迟一致性等问题。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1、优化KV存储引擎在多租户场景的延迟表现; 2、KV存储引擎在多租户场景下的资源隔离、限流相关技术研究。

更新于 2024-07-15
logo of aliyun
实习阿里云研究型实习

发现数据库系统的性能瓶颈并作出针对性优化是一项重要工作。随着各类智能算法的发展和应用,学术界和业界也逐渐开始利用智能算法优化数据库系统中的各种模块,我们也考虑在实际产品中实现智能化数据库调优能力,项目内容包括但不局限于: 1、数据库可观察性接口:云原生数据库系统含有多种资源,针对性能问题实现系统可观测接口,数据收集与清洗; 2、数据库可操控性接口:定量化数据库系统对外提供的可操控接口特性; 3、多时间尺度的数据库性能分析模型:需要将已有的系统可观察性和可操控性模型化、定量化,建立多时间尺度的系统状态评估模型和状态迁移模型; 4、具有特征性的数据库性能调优算法:基于已有的可观、可控接口及数据库性能模型,设计并实现用于智能化自适应的数据库性能调优算法。

更新于 2024-07-15
logo of aliyun
实习阿里云研究型实习

随着数据量的爆炸性增长以及业务复杂性的增加,诸如图、文档、时空、时序等非结构化数据类型规模和价值都越发重要。需要研究更有效率的非结构化数据的处理、存储、分析的技术,尤其是与结构化数据融合进行分析的手段,将来自不同来源、格式、结构或模型的数据整合到一个统一的系统中,以实现数据共享、分析和决策支持。 我们的研究内容包括: 1. GPU加速的多模态数据处理,如fts、向量检索以及索引建立。GPU高效池化以及远程GPU调用,查询算子以及后台数据重整任务的高效远程GPU卸载; 2. 非结构化数据,如json、文档等自动语义发现与解析、数据模式匹配与语义对齐、对象关联分析。结合NLP等技术,实现从原始数据到结构化语义的高效转化; 3. OLTP高效入湖。结合数据湖的灵活性(存储非结构化数据)与数据仓库的结构化管理能力(如ACID、事务支持、元数据管理),通过存储层创新、计算引擎优化和云原生技术,实现不同业务的高效协同。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。

更新于 2025-06-03