阿里云阿里云智能-AI网络资源方案专家-杭州
任职要求
1.至少5年以上网络设备供应链或研发设计经验 2.严谨细致、责任心、计划周全、有自驱力 3.高效的…
工作职责
对阿里云AI基础设施中网络资源供应负责,包含网络设备、路由器、光模块和AOC/DAC。从项目启动的网络资源全局规划、资源方案、供应路径到整体齐套到货,对AI项目组负责。 1. 全局统筹规划AI相关的各个网络设备(含部件/光模块)厂商产能,从厂商物料齐套到排产上线、确保按时产出; 2. 熟悉数据中心网络架构,网络产品技术迭代和主流的网络拓扑,构建适合业务场景的计划策略如安全库存和日常计划策略; 3. 对VMI、CMI、IDC资源池库存水位和库存消耗负责,包含库存风险监控、预警,制定消耗方案,推动及时处置; 4. 熟悉供应链的供需存管理,承接AI业务需求,基于AI相应的网络架构按期到货。推动落地网络设备按时按要求上架。By AI项目保障项目交付SLA达成; 5. 了解行业动态,熟悉数据中心从项目发起到网络资源方案流转流程和系统;确保网络资源方案落地; 6. 熟悉数据中心硬件设计、有数据中心网络硬件研发和售前工作者优先。
对阿里云AI基础设施中网络资源供应负责,包含网络设备、路由器、光模块和AOC/DAC。从项目启动的网络资源全局规划、资源方案、供应路径到整体齐套到货,对AI项目组负责。 1. 全局统筹规划AI相关的各个网络设备(含部件/光模块)厂商产能,从厂商物料齐套到排产上线、确保按时产出; 2. 熟悉数据中心网络架构,网络产品技术迭代和主流的网络拓扑,构建适合业务场景的计划策略如安全库存和日常计划策略; 3. 对VMI、CMI、IDC资源池库存水位和库存消耗负责,包含库存风险监控、预警,制定消耗方案,推动及时处置; 4. 熟悉供应链的供需存管理,承接AI业务需求,基于AI相应的网络架构按期到货。推动落地网络设备按时按要求上架。By AI项目保障项目交付SLA达成; 5. 了解行业动态,熟悉数据中心从项目发起到网络资源方案流转流程和系统;确保网络资源方案落地; 6. 熟悉数据中心硬件设计、有数据中心网络硬件研发和售前工作者优先。
1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。