蚂蚁金服蚂蚁集团-分布式文件存储专家-杭州/上海【数据平台】
任职要求
1、拥有分布式系统相关研发经验,熟悉分布式系统相关理论,如paxos/raft等; 2、 熟悉C/C++/Go/Python等其中一种语言,熟悉网络编程,多线程编程; 3、 熟悉分布式存储系统的关键技术点及解决方案。 具备以下条件之一者优先: 1、有Li…
工作职责
a.负责蚂蚁的分布式文件存储系统架构设计和优化 b.负责蚂蚁的分布式存储服务端,客户端sdk代码调优 c. 负责分布式文件存储生态工具的开发
⁃ 解决千亿级元数据索引效率的问题,支撑海量文件的查询访问效率以及元数据扩展性问题,提供性能卓越扩展良好的元数据服务。 ⁃ 高效的blob存储格式,编写高质量、可扩展、高可用、性能卓越的存储底层核心模块,对模块质量负责。 ⁃ 负责性能IO链路,对小文件聚合、大文件切片、EC编码等核心功能负责。 ⁃ 基于业界主流的AI训练加速方案,打造符合蚂蚁特点的高性能AI存储/缓存产品,为大模型、海量多模态数据的高并发训练提供存储底座,为AI算力持续增长提供基础设施侧保障。 ⁃ 负责存储产品的长期技术演进及稳定性保障,对上层业务效果负责。
1、负责运维管控系统子模块设计和研发工作,如部署升级系统、根因分析系统、监控告警体系、故障自愈系统等; 2、负责可观测性平台系统的设计和研发工作,提升服务质量和系统的可观测能力; 3、制定交付标准和运维规范,通过自动化的方式,提升系统运行的效率及稳定性。
岗位目标: 深度参与下一代超大规模分布式存储系统的架构设计与实现。利用 Kernel Bypass、软硬协同 及自研存储引擎等尖端技术,解决千亿级元数据挑战,构建微秒级低延迟、高吞吐的存储内核,支撑大模型训练及高性能计算场景。 核心职责: 1. 存储内核与引擎开发:负责 Blob 存储内核、持久化引擎及高性能元数据服务的设计与开发;针对 SSD/HDD 特性优化存储格式,实现小文件聚合、EC 编码及高效压缩。 2. 软硬协同与性能加速:利用 RDMA、SPDK、DPDK 等技术栈重构存储 I/O 链路,实现全链路零拷贝(Zero-copy)与微秒级端到端延迟。 3. 全栈性能调优:针对 AI 训练等高并发场景,进行 CPU 亲和性、NUMA 架构、网卡 Offload 及存储协议栈的深度调优,消除系统瓶颈。 4. 前沿技术落地:探索并落地高性能用户态文件系统、NVMe-oF 及计算存储一体化方案,确保存储系统在吞吐量与存储密度上的持续领先。