阿里云阿里云智能-存储研发专家-AI领域-计算存储通道
任职要求
1、编程基本功扎实,熟悉数据结构和算法,熟悉Python、C/C++ 编程和多线程编程; 2、熟悉 DPDK、Run-to-Completion、Kernel Bypass、用户态网络协议、RoCE RDMA、DPU 卸载等高性能软硬件技术…
工作职责
1、负责计算存储通道服务的数据面研发,在 CIPU、BlueField DPU、物理机 Host 等各类硬件平台中,构建计算产品访问存储产品的虚拟通道,通过DPU卸载、高性能软件架构、软硬件协同优化、与存储层协同优化等方法,持续提升通道服务的安全、性能、成本、灵活性、可观测可运维性,在超大规模部署中放大技术价值并沉淀新想法融入下一代CIPU、DPU 的需求定义和设计; 2、负责计算存储通道服务的管控面研发,在智算、通用计算、Serverless 计算等丰富的计算产品中,支持对多种 Serverless、多租的存储产品的访问管理(包括通道设备管理、访问控制、租户隔离、QoS 管理等等),构建统一灵活、高可用、大规模的中心管控服务,与数据面、计算端 Guest OS 和容器平台深度融合的单机管控链路,以及智能的数据分析链路; 3、深入学习和理解 AI 智算、数据湖仓、搜索推荐广告、云原生中间件等业务场景中的存储访问需求,与计算和存储产品团队协作,提供有竞争力的产品新功能和架构方案设计,并推动解决方案的落地;
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 DPDK 和 RDMA 技术栈的深度优化和落地,在不同业务的不同网卡&交换机环境中,进行网络库的适配、集成、性能调优,突破单机业务吞吐瓶颈,降低平均和长尾延迟。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。
参与阿里云文件存储客户端的全栈研发工作,包括但不限于: 1.分析和优化客户端用户态和内核软件栈,从吞吐、IOPS和Latency角度充分发挥硬件和网络能力,不断优化高性能下的 CPU 和内存消耗; 2.优化客户端软件栈架构,使其可以快速适配各类操作系统,并能充分利用X86/ARM体系架构的不同特性,发挥出软件的极致性能; 3.参与从计算侧到服务端的全链路 trace 建设和完善,结合操作系统内核、FUSE等相关组件,建设准确高效的I/O全链路观测体系。
1. 负责高性能并行文件系统中,新型存储介质、RDMA 网络相关性能分析工具开发和性能验证; 2. 结合存储硬件演进,负责并行文件系统的存储引擎在性能、成本、稳定性多维度的持续优化; 3. 与硬件团队合作进行软硬件结合设计,负责相关的存储软件设计和性能优化。
1. 深入理解基于NAND的固态硬盘(SSD),基于SCM介质的Persistent Memory (PMEM)的原理,架构,控制器/固件实现,以及相应主机端驱动和操作系统IO软件栈的架构和实现,针对阿里云业务场景,架构 / 设计 / 开发相关产品,满足阿里数据中心对于新型SSD和PMEM的需求。 2. 深入理解存储业务应用,对分布式文件系统、块存储、对象存储、文件存储、以及大数据平台进行深入分析,了解阿里业务情况与用户需求,制定低成本,高性能的存储软硬件技术和产品的发展路线。 3. 与工业界、学术界密切接触,跟进新研究、开发状态,结合阿里业务发展,规划未来阿里存储软硬件产品,以及相应软硬件架构的路线图,推进存储平台的标准化,发表文章和专利,树立国际影响力。 4. 与服务器架构团队密切配合,规划机型,并落地针对块存储/对象存储/冷存储/大数据存储等各类软硬件产品。