阿里云阿里云智能-CIPU研发专家(存储)-杭州
任职要求
1. 有5年以上的相关工作经验
2. 理解通用服务器体系结构,对服务器关键组件(CPU,存储,网络)和操作系统linux kernel等有较深入理解,并具有相关工作经验
3. 有存储产品软件相关工作经验,有NVMe-oF、SPDK等之一相关工作经验
4. 具有良好的沟通能力,对云计算技术有热情,新技术的接受能力以及学习能力要强
可…工作职责
在2022阿里云峰会上,阿里云正式发布了其自主研发的云基础设施处理器CIPU(Cloud infrastructure Procrssing Units),作为一款为新型云数据中心设计的专用处理器,它将在未来取代CPU成为新一代云计算的管控和加速中心。了解CIPU: https://mp.weixin.qq.com/s/VEco9XaX0eQtZy-pAVS6ug 系统设计与研发 • 负责云平台系统CIPU 的存储云化加速 架构设计和优化工作 • 负责CIPU存储云化加速 新技术和方案的研发以及在云产品推广应用的工作 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责 • 负责系统设计与研发文档的编写、改进与维护 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升 • 沉淀、输出相关案例/工具 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求 • 负责CIPU存储软件和系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
1、负责计算存储通道服务的数据面研发,在 CIPU、BlueField DPU、物理机 Host 等各类硬件平台中,构建计算产品访问存储产品的虚拟通道,通过DPU卸载、高性能软件架构、软硬件协同优化、与存储层协同优化等方法,持续提升通道服务的安全、性能、成本、灵活性、可观测可运维性,在超大规模部署中放大技术价值并沉淀新想法融入下一代CIPU、DPU 的需求定义和设计; 2、负责计算存储通道服务的管控面研发,在智算、通用计算、Serverless 计算等丰富的计算产品中,支持对多种 Serverless、多租的存储产品的访问管理(包括通道设备管理、访问控制、租户隔离、QoS 管理等等),构建统一灵活、高可用、大规模的中心管控服务,与数据面、计算端 Guest OS 和容器平台深度融合的单机管控链路,以及智能的数据分析链路; 3、深入学习和理解 AI 智算、数据湖仓、搜索推荐广告、云原生中间件等业务场景中的存储访问需求,与计算和存储产品团队协作,提供有竞争力的产品新功能和架构方案设计,并推动解决方案的落地;
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。