logo of hello

哈啰SRE / 存储工程师

社招全职技术地点:上海 | 北京状态:招聘

任职要求


必备技能
● 熟悉 Linux 内核 / 网络调优
● 具备 GPU / InfiniBand / RDMA 相关经验
● 掌握 IaC …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 负责超算集群装机、运维及生命周期管理
● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC)
● 并行文件系统运维与优化
● NCCL/UCX Profiling 与性能调试
● 参与 24×7 值班及 P1 故障响应
包括英文材料
Linux+
内核+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年D13255

1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。

更新于 2025-12-08深圳
logo of kuaishou
社招D7194

1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。

更新于 2025-07-01杭州
logo of kuaishou
社招D7194

1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。

更新于 2025-07-01北京
logo of antgroup
社招3年以上技术-SRE

1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。

更新于 2025-05-15成都