logo of papergames

叠纸游戏平台运维SRE专家

社招全职5年以上平台类地点:上海状态:招聘

任职要求


1. 本科及以上学历,5年以上互联网公司运维相关经验,1年以上团队管理经验。
2. 熟悉高并发高可用微服务系统架构运维。
3. 对微服务架构、分布式部署、两地三中心、业务多活等有一定了解,实际运维过全球化部署的服务。
4. 精通K8S的基础架构和各组件运行原理,对云原生相关的技术体系和产品有深入的运用。
5. 有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力。
6. 至少能掌握Python/GO等一至两种语言,有项目开发经验者优先。
7. 熟悉SRE运维体系者优先。
8. 熟悉数据库、中间件大数据产品者优先。
9. 有良好的沟通协作能力、学习能力、团队精神。
10. 有责任感,对于工作积极严谨。

工作职责


1. 负责公司平台服务运维工作,管理平台运维团队,提升业务稳定性和工程效率。
2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作。
3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代。
4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化。
5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复。
6. 负责应用容器化场景下高可用建议及管理,包括限流、降级,容错、容灾确保应用质量。
7. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。
包括英文材料
学历+
高并发+
高可用+
微服务+
Kubernetes+
Python+
Go+
中间件+
大数据+
相关职位

logo of bytedance
社招3年以上A90366

1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。

更新于 2024-12-04
logo of papergames
社招5年以上平台类

1、负责游戏项目运维工作,管理游戏运维团队。 2、在阿里云、腾讯云、aws等多云平台上设计、实施和维护高度可用,基于云的基础设施和资源进行服务全生命周期管理。 3、实施和完善CI/CD和基础设施流程,确保服务的无缝部署和管理。 4、完善监控告警系统,能够及时识别和解决服务或安全方面的问题。 5、构建工具和自动化,消除部署中的人工、重复任务,利用基础设施即代码、DevOps工具实现服务的稳定运行。 6、积极致力于维持高标准的系统可用性、性能和安全性,制定和完善运维保障制度、及时响应方案、故障恢复方案等SOP。 7、与开发团队合作,解决线上问题参与工程团队的值班轮换,为游戏服务时间提供升级支持。

更新于 2024-07-17
logo of tencent
社招5年以上腾讯云产品

1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。

更新于 2025-07-21
logo of tencent
社招5年以上CSIG产品

1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。

更新于 2025-04-14