logo of bytedance

字节跳动SRE高级工程师/架构师-池化存储

社招全职A19279A地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业优先;
2、扎实的计算机基础知识,了解Linux操作系统、存储、网络IO等相关原理;
3、熟悉一种或多种编程语言,例如C/C++/Python/Shell等;
4、具备风险敏感度与较强的责任心,有线上Linux环境下的系统运维和管理经验者优先;
5、有开源的分布式存储系统(如CephHDFS等)的运维和使用经验者优先;
6、善于沟通协作,积极响应解决问题。

工作职责


1、负责线上Bytestore系统的稳定性保障和风险治理;
2、负责线上Bytestore系统的运维流程优化与标准化;
3、负责线上Bytestore系统的指标和监控的持续建设;
4、负责线上Bytestore系统的运维平台开发与工具建设。
包括英文材料
学历+
Linux+
C+
C+++
Python+
Bash+
Ceph+
HDFS+
相关职位

logo of ctrip
社招3年以上商旅业务开发

编写代码实现产品功能,完成项目开发,撰写相关文档,参与需求分析;具备sre和devops意识;能够在团队中完成Code Review的任务,确保相关代码的有效性和正确性,并能够通过Code Review提供相关性能以及安全的建议;协同产品、运营团队,推动业务及项目落地,持续优化升级现有软件产品和系统,及时响应线上故障,快速定位并修复现有软件缺陷;指导初级Java工程师根据产品需求进行开发,保证开发效率和代码质量;负责核心技术问题的攻关,架构设计、系统优化,协助解决项目开发过程中的技术难题;了解互联网的技术发展、评估外部技术与解决方案。

更新于 2025-06-11
logo of bytedance
社招2年以上A4028

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27
logo of bytedance
社招2年以上UG52

Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统。 1、保障大数据&计算多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 2、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 3、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 4、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统 SLA; 5、参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2021-10-15
logo of bytedance
社招2年以上E6614

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性;为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 3、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 4、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA; 5、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27