快手服务器运维工程师
任职要求
1、本科及以上学历,计算机科学相关专业; 2、对服务器硬件结构、各类部件的基本功能原理机制和性能指标有基本的了解; 3、熟练使用Linux,了解系统的原理机制及常用操作指令; 4、熟练掌握至少一种编程…
工作职责
1、参与超大规模服务器(包括通用服务器和AI算力服务器)的交付、运行维护及资源退役,保障服务器稳定与高效运行; 2、协助定位和修复服务器故障,提升服务器的故障响应速度和问题闭环能力; 3、与研发、网络、数据中心等多方团队紧密协作,支持算力基础设施的稳定可靠运行; 4、参与服务器监控、数据分析及故障预测能力建设,自动化、智能化运维工具建设; 5、关注液冷、AI算力硬件等前沿技术,支持新硬件和技术在大规模环境中的验证、部署和落地; 6、积极参与实际项目,在导师指导下快速成长,积累通用及AI算力服务器运维核心能力。
1、负责服务器系统安装和问题排障; 2、负责分析解决服务器运行中的各类硬件问题; 3、负责服务器状态监控和数据分析,及时发现并解决潜在问题; 4、负责服务器硬件的调研,测试,输出技术报告,持续跟进技术发展趋势; 5、协助服务器带外(Out-of-band)管理,开发自动化运维工具; 6、编写和维护知识库文档,跟踪、推进问题修复进展。
-负责服务器集群的自动化运维、监控等运维与设计开发工作,自动化运维各组件和服务的上线、部署、运维,提升服务器运维的自动化程度,提升服务器集群的效率和能力 -负责服务器硬件自动化运维设计与开发工作,含服务器PXE系统开发,服务器OS安装,OS镜像制作,格盘,挂盘,压测,服务器重启,重装等 -负责硬件监控和运维平台技术的调研和可行性验证,探索运维自动化和智能化的技术和方向 -负责百度全网服务器底层硬件监控、诊断和运行优化组件的开发和优化 -分析服务器各类硬件的运行数据,构建服务器故障诊断、分级、预测、修复一体化方案
1、负责IT相关应用的运维工作,如监控系统、负载均衡、radius、办公网CDN、办公网DNS、vmware集群等 2、负责业务系统的运维,如财务系统、税务系统、行政系统等业务系统 3、负责系统日常变更,故障排查,性能优化,日常值守 4、负责集团重要活动的内部保障工作 5、负责梳理运维团队的SOP 6、负责运维侧CMDB、ITSM的需求管理并对接内部研发
1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维监管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向; 2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等; 3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力; 4、负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展; 5、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行; 6、负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行; 7、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展; 8、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。