字节跳动服务器运维专家
任职要求
1、有丰富的互联网大规模服务器运营运维经验,熟悉互联网运营运维流程体系,熟悉服务器全生命周期运营管理;具备服务拓展创新理念和运营服务拓展经验;熟悉服务器硬件产品开发和交付流程,有0-1打造服务器硬件产品的经验;熟悉产品开发生命周期管理,包含产品线规划、产品阶段管理、产品文档管理;熟悉服务器运维场景,熟练掌握服务器可维护性、易维护性、稳定性风险识别能力,具备服务器新产品引入运营适配经验和能力; 2、熟悉服务器硬件架构及工作原理,精通主流服务器硬件架构(x86、ARM等)及其配套软件,具备大规模服务器运维管理,如固件升级管理、带外服务管理等经验,能够独立制定和落实服务器运维管理方案;熟悉服务器故障模型、日志体系,熟悉服务器故障监控、日志分析、故障诊断;擅长问题分析和解决,能够独立完成服务器异常排查和优化,能独立处理复杂的系统级硬件故障,制定应急预案和长期解决方案; 3、熟悉服务器行业维保和技术服务交付流程和体系构成,具备成本意识,擅长结合海量运营,转化维保运营运维能力为成本优化项; 4、熟悉海量服务器运维稳定性保障流程规范、风险识别和监控、应急响应和保障措施,有海量服务器稳定性保障和处理经验,擅长和上下游及业务团队共同建设和运行稳定性规范;有丰富的互联网或运营商大型数据中心规划、运营、资源管理相关经验;熟悉制定和建设数据中心IT运维管理流程规范、运维平台和标准化运维能力;熟悉数据中心IT运维风险、隐患点所在,擅长识别和排除隐患风险,保障安全稳定运营; 5、有海量服务器运营运维流程规范、运维架构规划设计经验,具备在海量运营中提炼共性事务,转化为规范约束和平台自动运维的能力;熟练掌握Linux系统,擅长Linux系统下服务器硬件配置设置、故障排查;熟练掌握Shell脚本/Python/PHP/Perl/Lua等常用计算机语言之一,可以通过语言工具工作中提升效率; 6、具备项目管理知识、良好的语言沟通能力、工作组织能力、推动能力和跨团队协作能力;责任心强,工作细致认真,对工作充满热情;学习能力强,对新技术充满热情和好奇心,能引领团队持续学习和创新;抗压能力强。
工作职责
1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向; 2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等; 3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力;负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展; 4、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行;负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行; 5、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展; 6、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。
1. 负责Linux类操作系统的评估、安装、配置、服务等,包括CentOS、Ubuntu等; 2. 负责操作系统层面的性能优化、安全配置、软件安装、补丁更新、变更操作等; 3. 负责配套自动化运维管理软件、运维脚本的管理、开发、使用等; 4. 负责HPC集群调度和配套监控软件的运维、使用、服务等; 5. 负责EDA软件的安装、交付和基础排障,IP数据运维和服务。
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行。 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能。 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术。 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。