logo of alibaba

阿里巴巴大规模多地域数据存储和异构计算系统研究-阿里星

实习兼职阿里巴巴2027届实习生地点:北京 | 杭州状态:招聘

任职要求


1.工程与系统基础:计算机相关专业背景,具备优秀的工程实现能力,精通 C/C++GoPython;具备扎实的数据结构、操作系统、分布式系统与存储系统基础,熟悉性能分析与故障定位方法。
2.大规模存储系统经验:有分布式文件系统、对象存储、KV 存储、湖仓系统或缓存系统研发经验,理解数据分片、副本、纠删码、一致性协议、元数据管理、冷热分层、跨地域复制等核心机制。
3.AI 数据与训练场景理解:熟悉大模型训练数据链路,包括样本构建、数据加载、Checkpoint、模型权重管理、数据版本管理等;有 LLM、多模态训练平台或大规模数据管道经验者优先。
4.高性能数据处理经验…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.大规模多地域 AI 存储架构:负责面向大模型训练与多模态数据处理的多地域数据存储系统设计与演进,支撑跨地域 GPU 集群下模型、样本、特征与中间结果的高效存储、访问与迁移,解决大规模训练中的数据吞吐、成本与稳定性挑战。
2.新一代模型存储格式研究:研究面向大模型的高效存储格式,包括浮点数压缩、权重分片、增量存储、Checkpoint 压缩与快速恢复等技术,降低模型存储成本与跨地域传输开销,提升模型存储、分发与恢复效率。
3.多模态样本存储与索引系统:设计融合结构化与非结构化数据的多模态样本存储格式,覆盖文本、图像、音频、视频等数据类型,构建高性能索引、元数据管理与数据版本体系,提升大规模训练数据的检索、加载与治理效率。
4.样本计算与异构计算引擎:研发高效弹性的多模态样本计算系统,支持数据清洗、解码、增强、过滤、特征抽取等计算流程,结合 CPU / GPU / 异构加速资源进行调度与性能优化,提升样本计算整体效率与资源利用率。
5.AI 训练数据底座落地支撑:作为 AI 基础设施核心模块,支撑大模型训练与应用落地,解决训练过程中的数据规模化、跨地域一致性、吞吐抖动、成本控制与系统稳定性问题,保障模型从数据准备到训练应用的顺畅衔接。
包括英文材料
C+
C+++
Go+
Python+
数据结构+
分布式系统+
还有更多 •••