阿里云阿里云智能-IDC技术研发-智能监控专家-杭州/北京
任职要求
• 拥有数据中心、电力行业或工业自动化相关数字化平台交付、设计或研发工作经验; • 熟悉数据采集、协议栈(如Modbus、OPC、BACnet等)、边缘计算和数据处理等技术。具备系统集成能力,能够将多种监控系统进行整合和优化。 • 深入了解电力监控、暖通监控等相关系统架构和技术知识,具备数据中心或电力、工业自…
工作职责
阿里自研监控平台的设计/交付/创新 • 负责阿里自研数据中心本地化平台的应用规划和设计,并推动落地实施。 • 深入挖掘业务需求,开展业务调研需求收集,运用数字化,智能化手段解决业务通痛点。 • 建立并完善数据中心基础设施的数字化模型,为自动化、智能化运营提供可靠的技术和数据支持。 • 与开发、运维团队等其他业务团队紧密协作,构建并迭代创新的平台能工解决方案,提升数据中心基础设施的整体管理水平。 • 起草和修改阿里数据中心监控平台的技术规范,编写和修改相关功能的各项技术要求。 • 依据业务诉求丰富平台能力设计,对园区型数据中心从平台功能设计、平台交付集成商管理,到施工期间进行全过程的技术管控,同时联合测试团队定制验收标准,确保业务功能落地。 • 承担产品交付管理工作,依据项目落地情况推进产品的持续优化和架构适配迭代,确保产品价值持续提升。
1. 负责阿里云全球IDC机房基础设施运维技术管理,制定并持续优化IDC基础设施运维标准、流程、质量分析模型,提升运维专业化水平,实现对IDC稳定性管理的技术、管理覆盖。 2. 负责阿里云全球IDC运维自控专业线能力建立,协助一线运维团队建立自控专业梯队。 3. 阿里云全球IDC稳定性事件应急响应,支撑一线运维进行自控系统应急故障处理。 4. 主导阿里云全球IDC运维稳定性飞检,识别自控系统架构风险,协助一线运维团队推动风险闭环。 5. 进行IDC自控及数字化技术探索,建立自控专业运维的数字化、自动化、AIOps能力。 6. 整合运维技术优化需求,对接研发、设计等团队完成需求落地;参与IDC自控新技术、新架构升级的评估,输出运维视角的评估建议。
数据中心运营平台团队的使命是实现服务器、IDC等基础设施整个运营领域的全面产品化支撑,从而达到高效率,低成本,低功耗的智能运维。集成了服务器和IDC领域的各项专业技术,以及运维平台进一步的智能化支持,我们立志打造一个真正自动驾驶的数据中心。 作为服务器领域开发专家,您将负责: 1. 负责服务器采集监控机制的定义与优化,包括定义采集的数据,频率以及后续业务应用方式。 2. 负责服务器性能、功耗等数据的分析与应用,提取业务特征,分析业务瓶颈并优化。 3. 基于ARM/X86架构,以及各类AI等异构架构的场景,完善监控与运维手段。 4. 基于故障宕机等场景,从集群角度增强服务器容灾与带故障运行的能力,可用性与稳定性。 5. 基于服务器领域知识与智能化相结合,运用智能化手段管理服务器。 6. 支撑单元化等特殊服务器集群管理场景。
对阿里云AI基础设施中网络资源供应负责,包含网络设备、路由器、光模块和AOC/DAC。从项目启动的网络资源全局规划、资源方案、供应路径到整体齐套到货,对AI项目组负责。 1. 全局统筹规划AI相关的各个网络设备(含部件/光模块)厂商产能,从厂商物料齐套到排产上线、确保按时产出; 2. 熟悉数据中心网络架构,网络产品技术迭代和主流的网络拓扑,构建适合业务场景的计划策略如安全库存和日常计划策略; 3. 对VMI、CMI、IDC资源池库存水位和库存消耗负责,包含库存风险监控、预警,制定消耗方案,推动及时处置; 4. 熟悉供应链的供需存管理,承接AI业务需求,基于AI相应的网络架构按期到货。推动落地网络设备按时按要求上架。By AI项目保障项目交付SLA达成; 5. 了解行业动态,熟悉数据中心从项目发起到网络资源方案流转流程和系统;确保网络资源方案落地; 6. 熟悉数据中心硬件设计、有数据中心网络硬件研发和售前工作者优先。
· 业务规划:建立以产品制造工程为基础的交付解决方案和体系,支撑供应链领域产品制造、仓配、交付、改配、维保和质量。 · 制造技术和管理:加强平台型和AI产品、制造、改配、维修的制造技术投入,制造技术量产一代、预研一代,高功耗产品从风冷制造向液冷制造规划和转型;构建服务器制造工程能力体系,推进器件、部件、工艺、设备、测试、维修等工程能力迭代和管理变更,监控厂商实际落实执行,协同解决交付异常,以工程技术提升制造质量和效率。 · 新产品引入:构建产品生命周期的供应链管理,负责新产品的工厂量产导入,协同研发在自研产品和自研部件设计阶段的DFx以提升产品可制造性和可维护性,做好新产品上量早期阶段的制造技术落地和质量管理,推进厂商制造能力和环境建设优化,提升产品导入效率和质量。 · 量产标的产品复制:主导从1到100的量产标的产品复制,革新式的建立产品快速复制流程实现产品复制从行业标准6个月降至3个月;并做好立项、退出的复制过程风险管控体系,以PLM和SLM为基础,以项目制管理方式提升和优化流程体系,把控项目立项、退出等关键节点,建立风险管理体系。 · 生产和交付质量:构建服务器和关键部件的质量管理体系,加强数字化能力建设,监督和提升部件/整机厂商在物料来料、生产制造、物流仓储、上架交付等全流程质量水平,负责制造过程异常处理和交付保障,服务于交付各领域。 · 产能规划和能力建设:依据标案及交付需求,识别产能瓶颈和风险,优化产品交付模式,提供全球范围内产能优化方案并推动厂商建设、验证、批量交付完成,实现全球供应投放能力的建设。 · 改配交付:建设和持续优化改配体系,并加强改配制造技术和质量提升,在IDC改配、CDN改配、AI改配等方向上持续提升资源利用率,实现降本增效的价值创造。 · 自维保:建设和持续优化自维保体系,用制造和维修技术提升备件拆解、备件NTF、备件维修和现场维修的能力,持续提升自维保的价值创造能力,并做好自维保基础能力的建设,为风险预防做好能力基础。 · 供应商管理:构建“六边形”战士的厂商绩效评价机制,通过MOR运作机制提升厂商供应链领域的能力和绩效,设计和执行MOR奖惩制度,并提升MOR绩效在招投标中的份额影响度,使运营管理与商务、研发协同良性循环。 · 交付解决方案:负责重点项目的供应、生产、质量、仓配、上架的交付解决方案设计和落地,构建国内、海外供应链安全体系。