蚂蚁金服蚂蚁集团-IDC基础设施运维管理工程师-杭州A
任职要求
1. 电气工程、暖通空调、自动化等相关专业; 2. 5年以上大型互联网公司IDC运维管理经验,熟悉数据中心各关键系统架构,熟悉数据中心供配电系统、UPS、柴发机组、精密空调、冷水机组等关键设备的工作原理及运维要点; 3. 熟悉国内外行业IDC电力系统、暖通系统的主流技术发…
工作职责
1. 负责与IDC基础设施供应商的日常运维和管理,确保IDC系统的稳定运行; 2. 结合业务需求和行业最佳实践,推动IDC供应商运维优化; 3. 负责IDC电力系统、暖通系统及相关基础设施的监控、维护和故障处理,快速响应&处理数据中心基础设施的突发故障,组织协调业务相关资源进行应急抢修,保障业务连续性; 4. 负责监控和分析数据中心的能耗情况,提出节能优化方案,提升数据中心的PUE水平,降低运营成本。
1、负责IDC机房内网络设备、机柜等交付管理,指定并持续优化交付标准、流程、提升交付效率; 2、负责网络交付域的生态管理,包括数据中心机房选址、工勘、园区网络基础设施设计及要求、供应管理、库存管理,建立过程管理标准,优化改进,构成持续稳定的交付; 3、跟进网络交付项目,能提前发现交付中的风险和问题,并协调各方解决问题,确保网络项目交付SLA达成; 4、负责整体构建网络交付的运营策略,资源规划与运营,确保网络交付不断提升交付能力和交付齐套性; 5、打通需求、规划、设备物料供货、调货、库管、资管、网络资源采购交付各环节,不断建设和优化网络端到端交付的平台能力。
1. 主导K8s在本地IDC的调度体系设计,包括节点亲和性配置、资源配额管控、污点容忍策略,确保业务任务优先调度至指定物理机,降低跨机房网络损耗与资源竞争。 2. 负责本地IDC容器化任务(Job/CronJob)的全生命周期管理,设计故障重试、超时释放、资源回收机制,解决物理机宕机、存储挂载异常等场景下的任务稳定性问题。 3. 优化K8s与本地IDC基础设施的集成方案,包括私有镜像仓库(如Harbor)对接、NFS/iSCSI本地存储挂载、物理机硬件(GPU/SSD)资源识别与调度,满足业务对特殊硬件的依赖需求。 4. 搭建本地IDC的K8s监控与运维体系,集成Prometheus/Grafana采集物理机CPU温度、磁盘IO、容器任务成功率等指标,输出运维 Dashboard 并制定告警策略,保障IDC资源可视可控。 5. 对接业务团队,提供K8s调度层的技术支持,解决本地IDC场景下的容器调度冲突、资源不足、任务执行失败等问题,输出标准化的调度配置模板(如Job YAML)。
1. 建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 2. 制定/梳理管理制度、操作手册、应急管理流程和应急操作预案,优化数据中心的安全和IT资产工作。 3. 建立与运营商顺畅的沟通渠道,防止数据中心安全和运营风险,确保策略要求合规落地。 4. (设施)负责国内租算项目数据中心基础设施日常运维管理及安全运营的保障,制定各站点基础设施运维策略与运维计划并推动落地。 5. (设施)通过设施数字化运维管理,提高机房管控能力和兜底能力,保障各项核心指标达标。 6. (设施)落实数据中心内所有岗位的安全生产要求,推动各站点在环保、消防、职业健康、法务、廉正等方面的合规运营。 7. (设施)负责所在站点、机房楼的用电量、机柜用量等相关对账工作。 8. (设施)牵头每月与运营商举行机房运维沟通例会,总结当月运维工作的完成情况和存在的问题,确定下月运维工作任务。 9. (设施)支撑运营商运维团队培训,收集培训计划、培训记录及培训考核结果,跟进运维人才梯队建设、能力培养和考核管理。 10. (设施)协助运营商负责楼栋现场运维监督及应急响应,协调对接处理现场问题。 11. (设施)介入数据中心运维侧技术管理,为数据中心设计、设备选型等技术迭代提供技术支撑。