阿里云阿里云智能-数据中心设施运维高级经理(FM)-杭州
任职要求
• 【设施运维】10年及以上数据中心基础设施运维经验; • 负责多个大型数据中心(10MW+)的运维管理,管理人数超过50人; • 有国外数据中心运维管理经验,可熟练使用英语交流; • 可接受国外外派; • 熟悉基础设施领域各主要专业领域的全生命周期管理(例如暖通、电气、弱电等); • 持续了解并学习行业内的新技术、新理论、新方法,并能适时应用到所属业务; • 专业领域的问题终结者,具备问题总结和平台建模能力; • 能提前发现变更及运维侧的风险点,及时处理突发性故障,为所负责园区的基础设施稳定性负责; • 能够制定园区日常运营流程、规范、标准,推进相应标准的落地; • 持续建立并推广标准化的运维体系和流程,降低运维风险,提升运营效率; • 能够驱动供应商在日常运维过程中提升配合意愿度来达成业务目标。
工作职责
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心基础设施运维策略与运维计划,保障设施稳定性,均衡考虑运维质量、效率、成本及安全; • 通过设施数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件; • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理; • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的设施运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案; • 负责阿里IDC能效优化工作,实现机房高效运行; • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑; • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平; • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心基础设施运维策略与运维计划,保障设施稳定性,均衡考虑运维质量、效率、成本及安全 • 通过设施数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件。 • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的设施运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案。 • 负责阿里IDC能效优化工作,实现机房高效运行。 • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑。 • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平。 • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。

根据公司发展规划,进行新FAB工厂数据中心建设和园区综合布线建设(无尘室/非无尘室综合布线/无线对讲等项目) 1.负责IT网络基础设施项目的方案规划及建设,含:无尘室/非无尘室综合布线、无线对讲、手机信号覆盖等项目 2.负责IT数据中心机房项目的方案规划及建设 3.负责现有FAB工厂IT网络基础设施的日常管理及运维,如:IT数据中心机房、FAB园区综合布线、无线对讲系统 4.负责工程项目实施管理,协调项目各方人员,把控项目整体进度、质量、成本 5.定期巡检IT网络基础设施,及时发现潜在问题 6.负责合作伙伴及供应商管理 7.为跨部门及分子公司提供关于IT网络基础设施的技术支持和培训
1、负责阿里云海外数据中心运维技术中台的综合管理。 2、负责阿里云海外数据中心稳定性的整体管控,制定并持续优化运维标准流程、管理机制,开展日常运维过程质量分析,实现对数据中心稳定管理的技术、管理覆盖,确保达成稳定性目标。 3、开展数据中心的飞检评价,识别架构、维护、应急、人员、管理等风险,协助海外属地运维团队建立风险应急预案和整改方案,并协同推动风险整改闭环。 4、事件应急响应,通过全面掌握海外机房的架构、风险、运行逻辑等,对海外稳定性应急事件进行响应与技术支撑。