阿里云诚云科技-高级服务器硬件运维保障工程师-蚂蚁项目
任职要求
1.通讯、计算机、电子工程、自动化、计算机工程类相关专业,熟练掌握计算机底层硬件基础知识; 2.2年左右服务器运维/售后技术支持经验,熟悉Linux//SHELL技能; 3.有良好的沟通能力和团队合作精神,较强的服务意识和抗压能力,良好的英语/中文读写能力; 4.有AI GPU机型交付运维、稳定性建设、数据化和智能化运维实践、阿里云产品大规模集成运维经验者优先。
工作职责
1.负责海量服务器从上架到下线全生命周期运维体系规划和建设,主要包含OS装机、维保&维修、故障监控、新品导入适配(NPI)、硬件配置变更、远程管控、数据擦除安全,保障交付效率&质量符合相关SLA; 2.参与服务器安全生产规范和平台建设,风险应急和治理,保障和提升业务安全和可持续; 3.跟踪运维业界前沿技术和发展趋势,结合阿里云业务场景,推动相关技术落地和优化;
1.负责服务器整机硬件交付相关工作,包含规模化批量交付流程、工具开发、以及TO B的服务器系统级交付解决方案; 2.负责服务器部件级交付前质量压测、性能测试、异常故障排查、问题分析与优化,保障运营备件交付质量; 3.负责服务器交付测试脚本与自动化工具优化,制定服务器交付技术规格产品化的规划设计与优化建设等工作,提升运营交付质量和效率。
1、负责输出会议室IT设备的标准解决方案,包括无线投屏、商显、音视频设备选型和系统运维,持续提升用户入会体验 2、负责对文印系统、设备的运维,包括文印设备的上下架、报修、维保、抄数、巡检、系统预警处理等,保障设备可用性 3、负责对PC机房的建设和运维,包括机房用电设计评估、物资选型、网络需求对接,确保机房建设成本的合理性和稳定性 4、负责对IT弱电机房服务器系统安装、上下架、基本故障处理、盘点,确保操作流程合规,保障服务器、存储、网络设备、UPS、精密空调等设备稳定运行 5、负责对IT电脑硬件选型提供专业意见,确保性能与成本的平衡 6、负责会议室设备资产管理、持续优化设备预警能力、推动资产自动化盘点落地 7、负责专项项目方案评估,落地实施及设备运维,使用利旧设备,为业务部门提供云算力软硬件服务,降低业务运营成本 8、对现有工作流程、制度、系统工具建立统一标准规范,运营最佳实践案例在内部复用
1、负责保障系统稳定性和安全性,快速发现问题、解决问题并及时复盘、总结,对系统稳定性和安全性负责; 2、负责各类(例如:618、双11、双12和春节等)活动重保; 3、负责对疑难问题进行技术攻坚,深入理解系统痛点,积极响应并推动业务运维和容灾体系建设,定期组织演练和总结; 4、负责智能化/自动化运维平台及工具建设,不断提升人效; 5、负责IDC相关硬件资源管理与规划,持续提升资源利用率,降低成本。