蚂蚁金服蚂蚁集团-存储平台研发专家-上海/杭州
任职要求
● 产品理解:深入理解主流存储产品架构,具备技术选型与方案设计能力,熟悉S3/POSIX协议; ● 可观测性:熟练使用Prometheus/Grafana/ELK/Jaeger,具备metrics设计与性能分析能力; ● 运维自动化:熟悉K8s/O…
工作职责
● 负责存储产品接入层(对象/文件)设计实现,对易用性、稳定性、协议兼容性负责; ● 主导存储产品技术演进与架构升级、,对上层业务效果负责; ● 建设可观测性体系(监控、日志、链路追踪)与自动化运维能力; ● 构建容量规划、成本优化、资源调度等管理平台。
岗位目标: 深度参与下一代超大规模分布式存储系统的架构设计与实现。利用 Kernel Bypass、软硬协同 及自研存储引擎等尖端技术,解决千亿级元数据挑战,构建微秒级低延迟、高吞吐的存储内核,支撑大模型训练及高性能计算场景。 核心职责: 1. 存储内核与引擎开发:负责 Blob 存储内核、持久化引擎及高性能元数据服务的设计与开发;针对 SSD/HDD 特性优化存储格式,实现小文件聚合、EC 编码及高效压缩。 2. 软硬协同与性能加速:利用 RDMA、SPDK、DPDK 等技术栈重构存储 I/O 链路,实现全链路零拷贝(Zero-copy)与微秒级端到端延迟。 3. 全栈性能调优:针对 AI 训练等高并发场景,进行 CPU 亲和性、NUMA 架构、网卡 Offload 及存储协议栈的深度调优,消除系统瓶颈。 4. 前沿技术落地:探索并落地高性能用户态文件系统、NVMe-oF 及计算存储一体化方案,确保存储系统在吞吐量与存储密度上的持续领先。
1、产品解决方案设计:深入理解公司业务需求,结合 Redis、RedKV、MySQL、TiDB、RedTao、ROS 等多种存储数据库技术特点,主导设计高可用、高性能、可扩展的存储数据库产品解决方案,推动业务与技术深度融合。 2、平台研发与优化:牵头存储数据库运维提效工作,推动实现存储数据库资源自动化部署、智能监控、故障自愈等功能,提升存储数据库运维效率与服务质量,助力团队从传统运维向平台化运营转型。 3、横向项目落地:作为项目负责人,统筹协调跨部门资源,制定项目计划与技术方案,确保重大横向项目按时高质量完成,推动公司存储数据库技术体系升级与创新。 4、技术研究与创新:跟踪存储数据库领域前沿技术动态,探索新技术在公司业务场景的应用可行性,主导技术预研与 POC 验证,为公司技术发展提供前瞻性建议。 5、团队协作与知识共享:与业务部门、开发团队紧密沟通协作,提供专业的技术支持与咨询服务;组织内部技术培训与分享,提升团队整体技术水平。
1、负责运维管控系统子模块设计和研发工作,如部署升级系统、根因分析系统、监控告警体系、故障自愈系统等。 2、负责可观测性平台系统的设计和研发工作,提升服务质量和系统的可观测能力。 3、制定交付标准和运维规范,通过自动化的方式,提升系统运行的效率及稳定性。