logo of aliyun

阿里云研究型实习生 - 资源三层解耦形态下的云原生数据库研究

实习兼职阿里云研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、实现的原型系统及源码;
2、相关技术方案申请专利;
3、研究成果发表CCF-A类会议或期刊论文。

工作职责


基于存储和计算分离的第一代云原生数据库,其CPU和内存资源依然强绑定,导致计算和内存资源不能实现按量付费。因此,本团队对三层解耦技术进行了探索和实现,完全分离数据库内的CPU,内存,存储资源,并构成三个独立的资源池,用户可弹性扩展任何一种资源,且只需为其动态消耗的资源买单。基于以上背景,本项目聚焦但不局限于以下关键问题的研究:
1、基于三层解耦形态的分布式事务机制。在资源三层解耦部署形态下,已有的分布式事务机制不再适用,需研究适用于三层解耦部署形态的高效分布式事务机制;
2、基于三层解耦形态的死锁检测机制。对于并发执行的事务,如何结合三层解耦技术来避免死锁的发生,以及如何尽早检测到死锁并打破死锁,以减少事务执行的等待时间;
3、探索结合机器学习的资源弹性扩缩容机制。如何结合机器学习的方法来对用户业务流量进行预测,并在数据库集群维度对资源进行调度和分配,在满足用户业务对数据库性能需求的同时,提升资源利用率并降低成本。
包括英文材料
相关职位

logo of aliyun
实习阿里云研究型实习

一网统管城市治理业务中,视觉AI系统中的计算任务存在着城市场景规模大(万路级别视频点位)、应用场景复杂(户外、室内、工厂、道路等)、需求任务众多且复杂(城市国标部件等大小100余项目标类别的感知和判别能力)的特点。有限的计算资源与超大规模的视觉分析需求是视觉AI系统研发中的核心矛盾,结合业务特点城市大脑团队创新性的研发了视频巡检分析系统,通过时分复用提升系统分析能力。视频巡检分析系统的核心挑战是任务调度,巡检任务具备周期性、相关性(任务合理组合可有效降低算力需求)、多目标限制(CPU、GPU算力限制)、深度模型推理等复杂特性,对任务调度技术提出极大挑战。在任务调度问题的探索与深挖上,团队需要借助优质的高校在读博士研究生资源,在科研方向上进行技术积淀,并结合一网统管具体的业务场景与要求,实战落地更为鲁棒的大规模城市巡检调度系统。

更新于 2024-07-12
logo of aliyun
实习阿里云研究型实习

面向AI场景下数据库资源优化系统研发,具体职责包括: 1.设计基于深度强化学习(DRL)的CPU/GPU混合负载调度框架,构建基于负载管理器、资源调度器的动态资源分配模型,实现资源利用率与服务质量(QoS)的联合优化; 2.研发“资源预热+缓存预热+计算编排”混合架构,通过热点数据预测模型、计算节点池化技术及数据预热机制,突破对象存储(OSS)水平弹性的性能瓶颈; 3.基于Neon分支技术改进动态数据隔离机制,设计多分支场景下的共享数据访问优化策略,在零冗余存储前提下保障租户间、branch间安全隔离,同时提升多分支并发场景下的数据访问吞吐量。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

大规模AI计算集群价格高昂,且资源稀缺。为了提升大规模AI计算集群的效率,我们在不断尝试新的技术方案,使整个集群保持最佳性能。然而,因为资源的紧张,相关技术方案无法在上线之前进行验证;如果效果不符预期,也不能基于线上环境进行调试。以上限制给大规模AI计算集群优化技术的演进带来了很大的挑战,亟需构建一套低成本的、精准有效的大规模AI集群模拟系统,摆脱新技术评测对线上环境的依赖。因此,本项目的目的在于构建一套大规模AI计算系统的模拟平台,覆盖端侧通信库和网侧交换机动态行为的模拟,队列和流量等微观行为与线上实际业务基本一致。

更新于 2024-07-12
logo of aliyun
实习阿里云研究型实习

我们致力于优化云计算场景下的弹性计算服务(ECS)资源调度系统,通过算法创新解决动态资源分配、集群资源优化等核心问题。本岗位将深度参与资源调度算法的设计与实现,推动资源装箱效率提升、性能争用降低等关键技术突破,最终实现资源供给成本优化与整体资源利用率的显著提升。具体职责包括: 1. 研究并设计面向云计算场景的资源调度算法,解决海量算力需求下的资源分配效率问题; 2. 结合服务等级协议(SLA)要求,优化调度系统在成本、稳定性、性能等多目标约束下的决策机制; 3. 分析集群资源使用数据,建设资源画像,提出并实施资源利用率提升方案; 4. 实现算法原型,推动算法在实际生产环境中的落地与迭代; 5. 跟踪前沿技术动态,探索机器学习、强化学习等技术在资源调度领域的创新应用。

更新于 2025-04-17