字节跳动服务器交付工程师(北京)
任职要求
1、熟练使用Linux系统,具备Python等脚本语言,部署开发、测试环境;
2、精通X86服务器硬件组件/子系统CPU,Disk,Memory PSU等验证方案者优先;
3、具有较强的分析问题解决问题的能力,具有良好…工作职责
1、负责服务器运维的硬件/软件类日常运行维护,线上问题排查、故障处理及疑难问题诊断分析; 2、负责服务器类产品形态的运维评估、监控、调优,诊断、硬件性能优化及工具化开发; 3、负责运维服务过程中的问题处理及管控进度,并对项目实施及售后服务工作持续优化; 4、负责设备生命周期的过程优化和治理,完成产品的线上化推进过程的风险管控和保障; 5、负责资源交付、设备运维、供应商及IDC数据中心IT管理,持续完善标准流程规范制定; 6、负责服务生命周期的产品管理,运维可行性评估,和产品周期的运维质量风险管控。
1、负责服务器固件全生命周期质量管理,深入包括需求分析、方案设计、开发实现、测试验证、版本引入、线上维护等全生命周期活动,制定及完善固件质量标准及流程,推动在项目中导入应用,达成既定质量目标; 2、建立固件质量/效率度量指标体系,并推进相关平台/系统建设及应用,基于数据驱动推进固件质量/效率改善; 3、牵头固件领域线上重大批次质量问题处理,保障最优解决方案快速落地;并进一步主导拉通固件内外部各相关方,通过复盘活动,推进预防措施的制定并跟踪落地闭环; 4、主导供应商固件质量管理,推动建立供应商固件质量管理流程,通过季度审查、质量稽核等运作,确保质量目标、质量标准的落实和持续改进。
1、负责京东云商业化产品交付与运维的需求对接、方案执行及全生命周期维护工作; 2、负责推动商业化、集团内部支持场景下基础资源交付项目落地,对交付过程中发现问题并推动解决,协调各团队完成一站式交付; 3、负责跟进商业化、集团内部支持场景下基础资源交付项目的交付、内/外部验收,保证验收的及时性,对验收中出现的问题沉淀出经验教训; 4、推动交付标准化建设工作,包括总结交付经验、识别交付风险、改善交付质量;
1、参与超大规模服务器(包括通用服务器和AI算力服务器)的交付、运行维护及资源退役,保障服务器稳定与高效运行; 2、协助定位和修复服务器故障,提升服务器的故障响应速度和问题闭环能力; 3、与研发、网络、数据中心等多方团队紧密协作,支持算力基础设施的稳定可靠运行; 4、参与服务器监控、数据分析及故障预测能力建设,自动化、智能化运维工具建设; 5、关注液冷、AI算力硬件等前沿技术,支持新硬件和技术在大规模环境中的验证、部署和落地; 6、积极参与实际项目,在导师指导下快速成长,积累通用及AI算力服务器运维核心能力。