阿里云阿里云智能-CIPU软件研发专家-北京/杭州
任职要求
• 5年以上编码经验,熟练掌握C/C++,Python,熟练掌握常用调试方法和调试工具,熟练使用Python/Linux脚本开发测试或运维工具。 • 熟悉Linux开发环境, 熟悉Linux配置管理,了解Linux内核核心模块工作机制。 • 熟悉虚拟化技术,了解IO设备虚拟化技术,了解pcie标准、体系和工作原理,了解X86/ARM/RISC-V CPU体系架构,有相应项目经历优先考虑。 • 具有丰富的软硬件结合系统软件的开发和性能优化经验。 • 主导过多个项目及多个子系统的特性设计、需求分析经验。 • 熟练运用四看三定的规划方法论,能够进行框架性的技术研究与规划。 • 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作。 • 能够主导多个子系统的框架设计与开发…
工作职责
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
1、负责计算存储通道服务的数据面研发,在 CIPU、BlueField DPU、物理机 Host 等各类硬件平台中,构建计算产品访问存储产品的虚拟通道,通过DPU卸载、高性能软件架构、软硬件协同优化、与存储层协同优化等方法,持续提升通道服务的安全、性能、成本、灵活性、可观测可运维性,在超大规模部署中放大技术价值并沉淀新想法融入下一代CIPU、DPU 的需求定义和设计; 2、负责计算存储通道服务的管控面研发,在智算、通用计算、Serverless 计算等丰富的计算产品中,支持对多种 Serverless、多租的存储产品的访问管理(包括通道设备管理、访问控制、租户隔离、QoS 管理等等),构建统一灵活、高可用、大规模的中心管控服务,与数据面、计算端 Guest OS 和容器平台深度融合的单机管控链路,以及智能的数据分析链路; 3、深入学习和理解 AI 智算、数据湖仓、搜索推荐广告、云原生中间件等业务场景中的存储访问需求,与计算和存储产品团队协作,提供有竞争力的产品新功能和架构方案设计,并推动解决方案的落地;