logo of bytedance

字节跳动服务器运维专家

社招全职S3816地点:北京状态:招聘

任职要求


1、有丰富的互联网大规模服务器运营运维经验,熟悉互联网运营运维流程体系,熟悉服务器全生命周期运营管理;具备服务拓展创新理念和运营服务拓展经验;熟悉服务器硬件产品开发和交付流程,有0-1打造服务器硬件产品的经验;熟悉产品开发生命周期管理,包含产品线规划、产品阶段管理、产品文档管理;熟悉服务器运维场景,熟练掌握服务器可维护性、易维护性、稳定性风险识别能力,具备服务器新产品引入运营适配经验和能力;
2、熟悉服务器硬件架构及工作原理,精通主流服务器硬件架构(x86、ARM等)及其配套软件,具备大规模服务器运维管理,如固件升级管理、带外服务管理等经验,能够独立制定和落实服务器运维管理方案;熟悉服务器故障模型、日志体系,熟悉服务器故障监控、日志分析、故障诊断;擅长问题分析和解决,能够独立完成服务器异常排查和优化,能独立处理复杂的系统级硬件故障,制定应急预案和长期解决方案;
3、熟悉服务器行业维保和技术服务交付流程和体系构成,具备成本意识,擅长结合海量运营,转化维保运营运维能力为成本优化项;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向;
2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等;
3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力;负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展;
4、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行;负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行;
5、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展;
6、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。
包括英文材料
Linux+
Bash+
脚本+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、负责产品的硬件设计交付,实现产品化,对产品端到端交付质量运维负责,辅助并督导上游ODM/OEM开展设计和质量运维保障工作; 2、对标业界标杆,引入先进质量运维管理方法,并制定相关产品的全流程质量运维管控方案并主导实施,开展供应商质量审核、质量体系评估、运维能力管理,确保改善措施的有效实施; 3、主导分析解决和预防重大产品质量运维问题,主导产品质量问题分析、定位及质量问题的处理与预防; 4、负责大规模服务器从交付到退役的全生命周期运维工作,包括新机型导入(NPI)、操作系统安装、维修、硬件监控、硬件重构、服务器管理等运维自动化系统架构、设计、研发,确保交付质量与效率满足SLA要求; 5、参与制定服务器可靠性标准及平台建设,负责风险应急处置,保障系统稳定性,提升业务的安全性与可持续性; 6、持续跟踪硬件相关领域的技术发展趋势,结合对阿里业务应用场景的深入分析,并推动相关技术的产品化实现。

更新于 2025-11-14深圳|杭州
logo of aliyun
社招5年以上云智能集团

1、负责产品的硬件设计交付,实现产品化,对产品端到端交付质量运维负责,辅助并督导上游ODM/OEM开展设计和质量运维保障工作; 2、对标业界标杆,引入先进质量运维管理方法,并制定相关产品的全流程质量运维管控方案并主导实施,开展供应商质量审核、质量体系评估、运维能力管理,确保改善措施的有效实施; 3、主导分析解决和预防重大产品质量运维问题,主导产品质量问题分析、定位及质量问题的处理与预防; 4、负责大规模服务器从交付到退役的全生命周期运维工作,包括新机型导入(NPI)、操作系统安装、维修、硬件监控、硬件重构、服务器管理等运维自动化系统架构、设计、研发,确保交付质量与效率满足SLA要求; 5、参与制定服务器可靠性标准及平台建设,负责风险应急处置,保障系统稳定性,提升业务的安全性与可持续性; 6、持续跟踪硬件相关领域的技术发展趋势,结合对阿里业务应用场景的深入分析,并推动相关技术的产品化实现。

更新于 2025-12-30深圳|杭州
logo of mi
社招3年以上A154523A

1. 负责Linux类操作系统的评估、安装、配置、服务等,包括CentOS、Ubuntu等; 2. 负责操作系统层面的性能优化、安全配置、软件安装、补丁更新、变更操作等; 3. 负责配套自动化运维管理软件、运维脚本的管理、开发、使用等; 4. 负责HPC集群调度和配套监控软件的运维、使用、服务等; 5. 负责EDA软件的安装、交付和基础排障,IP数据运维和服务。

更新于 2025-06-13上海
logo of didi
社招5年以上技术

1、负责滴滴数据中心服务器&操作系统运维保障工作,保障服务器产品稳定性。 2、参与嘀嘀数万级服务器运维体系的设计和研发,提升服务器运维管理效率。 3、参与服务器运维平台、监控平台等系统的设计和研发,保障服务器稳定运行; 4、负责GPU/异构计算服务器单机与集群的性能评测及调优,分析和优化性能瓶颈; 5、参与GPU/异构计算故障在数据中心的监控、诊断与处理。

更新于 2026-02-11