logo of bytedance

字节跳动高级服务器硬件故障分析工程师-Data

社招全职3年以上A245331地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机科学、电子工程、通信工程等相关专业;
2、拥有3年以上服务器/数据中心硬件故障分析或运维经验;
3、熟悉服务器硬件架构,涵盖 x86/ARM架构、PCIe/NVMe协议,以及CPU、Disk、Memory、GPU、NIC、AOC等关键部件;
4、熟悉BMC/IPMI协议、Redfish、Sensor、SEL日志、BMC OneKeyLog、GPU压测诊断,能够熟练运用相关技术进行硬件状态监测与故障排查;
5、熟练掌握Linux环境开发,具备扎实的编程能力,熟悉Go/Python/Java/Shell中至少一门程序开发语言(若在硬件和故障分析领域经验丰富,开发能力可适当放宽要求)。

工作职责


1、负责字节跳动全球百万级服务器硬件监控体系及自动化运维体系的建设工作;深度参与线上新机型、新硬件及新场景的硬件监控方案制定与适配流程,精准定义并持续完善各类硬件故障判断标准,显著提升硬件监控的准确率与召回率,为服务器稳定运行保驾护航;
2、针对线上复杂的服务器硬件疑难故障,依托服务器底层黑盒日志(如BMC日志、IPMI/SMBIOS数据、操作系统内核日志、硬件事件日志等)展开深度分析;协同内外部软硬件研发专家,实现疑难故障的精准根因定位;积极推动线上疑难故障自动化诊断分析能力建设,不断提高硬件故障监控诊断明确化率与报修维修一致率,有效降低故障返修率;
3、负责线上服务器监控相关Oncall问题的快速排查、精准定位与深度分析,及时为团队提供专业答疑;建立并完善硬件故障知识库,系统沉淀典型故障案例及高效排查方法论,助力团队整体技术能力提升。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
Bash+
相关职位

logo of pingantech
社招5年以上计算机网络技术类

1、负责服务器存储硬件和操作系统通道软件系统的新技术及架构研究、路标规划及引入管理; 2、负责服务器和操作系统的测试与调优,提高服务器和通道软件平台的的稳定性及性能; 3、负责分析、定位及解决服务器运行中出现的各种硬件问题; 4、制定相应的技术的标准及规范; 5、持续跟踪业界领导厂商、技术发展趋势,输出必要的技术分析报告。

更新于 2025-09-17
logo of baidu
社招ACG

-负责服务器集群的自动化运维、监控等运维与设计开发工作,自动化运维各组件和服务的上线、部署、运维,提升服务器运维的自动化程度,提升服务器集群的效率和能力 -负责服务器硬件自动化运维设计与开发工作,含服务器PXE系统开发,服务器OS安装,OS镜像制作,格盘,挂盘,压测,服务器重启,重装等 -负责硬件监控和运维平台技术的调研和可行性验证,探索运维自动化和智能化的技术和方向 -负责百度全网服务器底层硬件监控、诊断和运行优化组件的开发和优化 -分析服务器各类硬件的运行数据,构建服务器故障诊断、分级、预测、修复一体化方案

更新于 2023-07-26
logo of oppo
社招5-10年SOFTWARE

1.、负责公司自购服务器从采购到报废的全生命周期管理,主导相关的数字化和自动化能力建设; 2、负责服务器测试、硬件监控体系、硬件报修、故障数据分析能力等,保障交付服务器的稳定性; 3、负责服务器规划性采购、新技术新部件引入、设备和部件利旧、机房搬迁等成本优化工作,不断降低服务器TCO成本; 4、处理服务器硬件和操作系统的疑难问题

更新于 2025-10-16
logo of tencent
社招5年以上CSIG技术

1.负责服务器固件全生命周期流程管理,包括需求分析、方案设计、开发实现、测试验证、版本引入、线上维护等全生命周期活动; 2.建设新机型、新部件、新版本固件管理的自动化流程,并通过数据指标体系,不断分析共性问题、优化流程,提升质量和效率; 3.解决日常固件升级过程中遇到的各类问题,并提取共性,持续优化流程。

更新于 2025-06-20