logo of bytedance

字节跳动SRE高级工程师-飞书(北京/深圳)

社招全职J3884地点:深圳状态:招聘

任职要求


1、本科及以上学历,计算机、通信等相关专业;
2、有较丰富的应急处置、应用稳定性建设经验,有网站或B端产品应用运维经验优先;
3、熟悉互联网技术架构和相关开源产品,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解;
4、熟悉应用高可用架构,对架构治理、稳定性架构有较深入理解;
5、熟练掌握ShellPython开发,有GolangJava开发经验优先;
6、优秀的逻辑思维能力及沟通能力,高效的执行力,责任心强。

工作职责


1、负责字节跳动飞书相关产品的可靠、稳定运行,为相关产品SLA负责梳理、识别应用架构风险,解决或推动业务研发解决架构风险;
2、完善相关应用的监控告警、降级与预案建设,组织故障演练、应急止损、事故复盘等稳定性工作;
3、参与设计、开发稳定性相关工具与产品,包括稳定性架构治理、监控报警、预案与演练、定位与止损等相关方向工具平台;
4、参与OnCall值班,第一时间响应并与RD共同解决各类突发事件,保障核心业务的稳定性。
包括英文材料
学历+
系统设计+
微服务+
高可用+
Bash+
Python+
Go+
Java+
相关职位

logo of bytedance
社招3年以上A91599A

1、负责Sdwan网络的日常运维、监控和故障排除,及时响应并解决网络故障和性能问题; 2、构建和维护Sdwan网络的监控和告警系统,实现对网络状态的全面监控和预警; 3、开发和维护自动化运维工具和脚本,提高运维效率,减少人为错误,并负责编写和维护Sdwan网络相关的文档和知识库; 4、参与容量规划和性能测试,确保Sd-wan网络能够满足业务需求。

更新于 2025-01-08
logo of bytedance
社招3年以上A59704

1、推进优化基础服务的响应延迟、性能问题,提升服务稳定性; 2、负责各种基础系统搭建和维护(DNS、LDAP等); 3、开发自动化运维平台,提高运维、开发协作效率,规范操作流程; 4、优化各种系统,减少重复性工作; 5、负责公司基础监控、报警系统开发与维护。

更新于 2025-03-22
logo of bytedance
社招2年以上A4028

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27
logo of bytedance
社招2年以上UG52

Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统。 1、保障大数据&计算多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 2、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 3、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 4、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统 SLA; 5、参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2021-10-15