
哈啰SRE / 存储工程师
任职要求
必备技能 ● 熟悉 Linux 内核 / 网络调优 ● 具备 GPU / InfiniBand / RDMA 相关经验 ● 掌握 IaC …
工作职责
● 负责超算集群装机、运维及生命周期管理 ● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC) ● 并行文件系统运维与优化 ● NCCL/UCX Profiling 与性能调试 ● 参与 24×7 值班及 P1 故障响应
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。