logo of bytedance

字节跳动SRE高级软件工程师(云原生方向)-基础架构

社招全职A162054地点:上海状态:招聘

任职要求


1、本科以上学历,计算机相关专业或同等实践经验;
2、扎实的计算机软件基础知识,了解Linux操作系统、存储、网络IO等相关原理;
3、具备以下一项或多项软件开发经验:Go/Python/Java/C++等;
4、具备解决问题的能力或工程化研发能力,良好的沟通技巧和责任感;
5、具有计算、分布式、大数据等系统经验优先;具有产品和工程思维,良好的项目能力、数据结构系统设计能力者优先。

优先条件:
1、具有大型分布式系统的设计、工程、分析和故障排查经验;
2、具备系统化的思维和解决问题的方法,良好的沟通技巧;
3、英语口语流利,能够用英语进行流畅的沟通、表达,并完成全球协作任务。

工作职责


1、通过良好的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展,提高稳定性,包括参与架构规划、评审,设计、部署和上线等环节;
2、确保大数据、计算、云原生、分布式存储等核心系统的高可用性和性能,并构建自动化工程以防止问题再次发生,同时关注系统成本和稳定性;
3、设计、编写和交付软件,提高公司服务的可用性、可扩展性、延迟和效率,构建保障线上大规模集群快速迭代的自动化平台;
4、构建自动化运营解决方案,为大型复杂系统参与整个生命周期的设计和上线,确保系统的可靠性;
5、根据业务使用场景,优化服务治理实践,包括关键链路性能瓶颈分析、业务问题定位和排障,推进系统高可用架构改造升级等。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
C+++
大数据+
数据结构+
系统设计+
分布式系统+
英语口语+
相关职位

logo of bytedance
社招MP32

字节跳动基础架构 SRE 团队负责支持公司各项业务的正常运转,包括处理紧急故障响应、保障业务连续性、产品可用性改进、性能&效率优化、变更管理、监控、容量规划、运维产品开发与管理等相关工作。SRE 前端团队与 SRE 业务团队密切配合,负责搭建基础架构SRE 统一的运维管理平台,以建设通用能力的方式支持各产品(技术组件)搭建理念一致、功能易用的运维分站,实现不同业务场景下的运维闭环。 1、参与应用开发管理、流程引擎、逻辑编排、UI 编排等方向的技术架构和研发; 2、负责搭建物料库、制定各类研发规范,构建统一、高效的前端研发流程; 3、参与公司运维工作的白屏化,自动化和智能化实践,为公司内部提供拥有极致体验的运维产品; 4、深度参与面向未来的下一代基础架构,构建云原生运维产品,为多种业务场景赋能。

更新于 2021-08-23
logo of bytedance
社招2年以上A4028

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27
logo of bytedance
社招2年以上E6614

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性;为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 3、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 4、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA; 5、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27
logo of bytedance
社招2年以上Y2191

1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

更新于 2022-05-27