logo of kuaishou

快手存储SRE工程师

社招全职D7194地点:北京状态:招聘

任职要求


1、对Linux操作系统有深入的理解,至少精通Shell/Python/perl/php/go语言中的一种;
2、了解文件系统基本运行原理;
3、了解基础网络架构,了解服务器、网络硬件相关知识;
4、熟练使用排查工具,包括不限于sar,sed,awk…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性;
2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险;
3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量;
4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
包括英文材料
Linux+
Bash+
Python+
Perl+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年D13255

1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。

更新于 2025-12-08深圳
logo of kuaishou
社招D7194

1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。

更新于 2025-07-01杭州
logo of hello
社招技术

● 负责超算集群装机、运维及生命周期管理 ● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC) ● 并行文件系统运维与优化 ● NCCL/UCX Profiling 与性能调试 ● 参与 24×7 值班及 P1 故障响应

更新于 2025-09-09上海|北京
logo of liauto
社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

北京