快手服务器运维工程师
任职要求
1、本科及以上学历,计算机科学相关专业; 2、对服务器硬件结构、各类部件的基本功能原理机制和性能指标有基本的了解; 3、熟练使用Linux,了解系统的原理机制及常用操作指令; 4、熟练掌握至少一种编程…
工作职责
1、参与超大规模服务器(包括通用服务器和AI算力服务器)的交付、运行维护及资源退役,保障服务器稳定与高效运行; 2、协助定位和修复服务器故障,提升服务器的故障响应速度和问题闭环能力; 3、与研发、网络、数据中心等多方团队紧密协作,支持算力基础设施的稳定可靠运行; 4、参与服务器监控、数据分析及故障预测能力建设,自动化、智能化运维工具建设; 5、关注液冷、AI算力硬件等前沿技术,支持新硬件和技术在大规模环境中的验证、部署和落地; 6、积极参与实际项目,在导师指导下快速成长,积累通用及AI算力服务器运维核心能力。
1.负责IT运维基础环境配置变更及配置优化调整; 2.负责基础架构IT支撑,包括但不限于硬件服务器,虚拟化服务器,存储服务器; 3.负责日常IT资源交付,根据IT运维规范初始化资源配置并对接需求部门交付资源; 4.协助服务器组其他人员进行研发部门IT需求收集,需求整理。
1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维监管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向; 2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等; 3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力; 4、负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展; 5、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行; 6、负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行; 7、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展; 8、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。
1、负责服务器稳定性治理、资源成本优化、交付效率提升相关工作,构建高效的服务器运维体系; 2、负责软硬件(服务器、操作系统)运行数据监控分析(性能、容量、事件等),构建服务器故障预测、诊断、定位、修复一体化方案; 3、负责服务器自动化运维系统的设计与开发工作,实现端到端的闭环自动化能力,包括测试、装机、验收、监控、故障处置等全模块自动化; 4、负责服务器软硬件安装、配置调试、故障处理等工作的执行指导和运维手册编写工作,能够快速准确的推动和协调内外部资源解决问题配合项目达成目标; 5、负责服务器运维技术调研和可行性验证工作,探索运维自动化和智能化的技术和方向。