快手存储SRE工程师
社招全职D7194地点:杭州状态:招聘
任职要求
1、对Linux操作系统有深入的理解,至少精通Shell/Python/perl/php/go语言中的一种; 2、了解文件系统基本运行原理; 3、了解基础网络架构,了解服务器、网络硬件相关知识; 4、熟练使用排查工具,包括不限于sar,sed,awk…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
包括英文材料
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
Bash+
[英文] The Bash Guide
https://guide.bash.academy/
A quality-driven guide through the shell's many features.
https://www.youtube.com/watch?v=tK9Oc6AEnR4
Understanding how to use bash scripting will enhance your productivity by automating tasks, streamlining processes, and making your workflow more efficient.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Perl+
https://www.perl.org/learn.html
Useful links if you are interested in learning Perl
https://www.runoob.com/perl/perl-tutorial.html
本教程适合想从零开始学习 Perl 编程语言的开发人员。当然本教程也会对一些模块进行深入,让你更好的了解 Perl 的应用。
还有更多 •••
相关职位
社招3-5年D13255
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
更新于 2025-12-08深圳
社招D7194
1、负责快手超大规模分布式存储,包括文件存储、对象存储、块存储等分布式存储系统的日常维护,保障服务高可用和高可靠性; 2、管理大规模存储引擎资源,从资源的申请、交付、使用、治理的全流程运营,保障资源运行效率以及控制容量风险; 3、建设大规模存储系统运维平台和工具,保障数万规模存储系统操作效率以及操作质量; 4、负责服务的监控报警、巡检管理,为线上的稳定性负责。
更新于 2025-07-01北京

社招技术
● 负责超算集群装机、运维及生命周期管理 ● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC) ● 并行文件系统运维与优化 ● NCCL/UCX Profiling 与性能调试 ● 参与 24×7 值班及 P1 故障响应
更新于 2025-09-09上海|北京