阿里云阿里云智能-高性能存储网络研发专家-AI领域-杭州
任职要求
1. 精通 C/C++ 高性能系统开发,具备扎实的计算机体系结构和操作系统基础知识。 2. 具备分布式系统开发和运维经验,处理过大规模分布式系统中的网络性能瓶颈,优先录用。 3. 满足如下一种或多种:有网络协议调优和硬件加速经验,熟悉 DPDK /…
工作职责
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 DPDK 和 RDMA 技术栈的深度优化和落地,在不同业务的不同网卡&交换机环境中,进行网络库的适配、集成、性能调优,突破单机业务吞吐瓶颈,降低平均和长尾延迟。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。
1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。
1. 负责高性能并行文件系统中,新型存储介质、RDMA 网络相关性能分析工具开发和性能验证; 2. 结合存储硬件演进,负责并行文件系统的存储引擎在性能、成本、稳定性多维度的持续优化; 3. 与硬件团队合作进行软硬件结合设计,负责相关的存储软件设计和性能优化。
参与阿里云文件存储客户端的全栈研发工作,包括但不限于: 1.分析和优化客户端用户态和内核软件栈,从吞吐、IOPS和Latency角度充分发挥硬件和网络能力,不断优化高性能下的 CPU 和内存消耗; 2.优化客户端软件栈架构,使其可以快速适配各类操作系统,并能充分利用X86/ARM体系架构的不同特性,发挥出软件的极致性能; 3.参与从计算侧到服务端的全链路 trace 建设和完善,结合操作系统内核、FUSE等相关组件,建设准确高效的I/O全链路观测体系。
1. 深入理解存储介质部件软硬件技术,熟悉存储介质(如CMR HDD,SMR HDD,NVME SSD,SCM等)、存储互联技术(如Ethernet,RDMA等)架构以及产品,文件系统和设备驱动的架构和实现, 开发软硬件一体化的高性能存储产品满足阿里巴巴云数据中心的业务挑战和需要; 2. 深入理解存储业务应用,对分布式文件系统,块存储,对象存储,文件存储,以及大数据平台进行深入分析,了解阿里业务情况与用户需求,制高性能,低成本存储软硬件技术和产品的发展路线; 3 深入理解AI场景训练推理存储系统需求及存储容器化部署方案,结合业务场景需求制定开发面向AI场景训练,推理存储软硬件一体化解决方案; 4. 与阿里云各软硬件团队合作,开发针对大容量,高性能存储的存储引擎、文件系统等。