logo of aliyun

阿里云研究型实习生 - AI数据湖的多层智能缓存研究

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机科学、人工智能、数据科学等相关专业硕士或博士在读,具备扎实的算法系统设计基础;
2. 精通Python/Java等语言,熟悉TensorFlow/PyTorch框架,掌握强化学习、时序预测等算法;熟悉数据湖架构和存储与加速系统,如阿里云OSS、S3、Alluxio等;
3. 完成原型系统开发,经验证效果提升明显,具备生产上线要求,同时完成设计、测试等文档的编写和整理;
4. 发表CCF-A类或者领域内顶级会议、期刊论文,并申请相关专利。

工作职责


1. 优化和设计AI数据湖场景下的多层智能缓存架构和算法,使系统具备缓存动态分级、冷热数据预测、智能数据迁移等能力;
2. 分析数据湖查询和AI训练场景的负载特征,构建特征库,支持缓存效果实时反馈、动态优化和应用闭环;
3. 撰写技术方案、实验报告及学术论文,参与专利申请;
4. 与团队协作,完成和现有系统的对接与测试。
包括英文材料
数据科学+
算法+
系统设计+
Python+
Java+
TensorFlow+
PyTorch+
强化学习+
相关职位

logo of aliyun
实习阿里云研究型实习

专注于数据湖场景下向量化和多模态数据存储和分析系统的研究、探索和开发,具体职责包括: 1、探索和研究高效可扩展的向量索引和分级存储算法,支持超大规模向量数据存储和检索; 2、探索和研究高性能的多模态数据检索和查询算法,支持大数据AI一体化场景下的融合分析; 3、分析现有向量索引算法和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云Milvus和EMR 产品服务,提供可靠高效的向量存储和检索方案,支持不同行业和规模的客户场景; 5、面向数据湖仓场景构建业界领先的多模态数据查询分析解决方案。

更新于 2025-06-26
logo of aliyun
实习阿里云研究型实习

Stonebraker在SIGMOD上对数据库发展20年进行了回顾:尽管过去二十年间KV、NoSQL、MapReduce等技术多次对SQL系统发起挑战,但其生命力却愈发蓬勃——这种""不断兼并挑战者""的韧性,恰恰印证了关系型数据库在数据管理领域的统治力。 其根本的底层逻辑是:随着内存容量突破TB级、NVMe SSD延迟进入微秒时代,硬件工艺的指数级跃迁,曾经为性能瓶颈而生的专用数据处理系统(如OLAP、时序数据库)正呈现大一统趋势。 AI时代,人们比任何时候都更清醒地认识到——数据依然是驱动智能的核心,我们期待对底层研究富有激情的你共同探索数据处理的新范式。 1 期待你通过创新的方法实现SQL性能在新场景下的数量级的提升,将学术成果发表成CCF-A类论文,可进一步在阿里云落地和贡献给开源社区。 2 研究方向包括不限于: 1) 多模态HTAP数据分析性能加速; 2) SQL在多模态场景下的语义扩展; 3) 探索SQL执行引擎范式,突破code gen和向量化执行等上一代执行模式; 4) 针对新硬件设计新的SQL算子和数据结构。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

面向AI场景下数据库资源优化系统研发,具体职责包括: 1.设计基于深度强化学习(DRL)的CPU/GPU混合负载调度框架,构建基于负载管理器、资源调度器的动态资源分配模型,实现资源利用率与服务质量(QoS)的联合优化; 2.研发“资源预热+缓存预热+计算编排”混合架构,通过热点数据预测模型、计算节点池化技术及数据预热机制,突破对象存储(OSS)水平弹性的性能瓶颈; 3.基于Neon分支技术改进动态数据隔离机制,设计多分支场景下的共享数据访问优化策略,在零冗余存储前提下保障租户间、branch间安全隔离,同时提升多分支并发场景下的数据访问吞吐量。

更新于 2025-07-02
logo of aliyun
实习阿里云研究型实习

【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。

更新于 2025-06-03