logo of keep

KeepSRE 应用运维工程师(J11990)

社招全职3年以上地点:北京状态:招聘

任职要求


1、统招本科及以上学历,3年以上大型互联网应用运维或者运维开发经验;
2、熟悉Linux操作系统原理,TCP/IP以及常用的网络协议;
3、熟悉腾讯/阿里/AWS等主流云厂商的产品特性及操作方式,熟悉云上网络产品底层原理及整体规划;
4、熟练掌握P…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、独立负责公司应用产品的运维,保障服务的稳定高效,不断提升用户体验;
3、各类故障的应急响应、处理、协调,保证产品7*24小时业务连续性;
3、优化运维解决方案,包括但不限于柔性容灾、弹性扩容与防攻击等;
4、对基础设施成本进行预算管理、资源配额、用量优化的全流程系统化管理;
5、深度参与告警收敛、混沌工程等领域实践,持续提升线上故障处置能力。
包括英文材料
学历+
Linux+
TCP/IP+
AWS+
还有更多 •••
相关职位

logo of pingantech
社招3年以上计算机网络技术类

1.异常分析处理,快速恢复应用系统故障,确保业务正常运行; 2.主动预防,分析应用的运行趋势找出潜在问题并防止其发生; 3.从运维角度评估应用架构可用性,变更风险,确保系统运行稳定; 4.有自动化理念,不断优化运维规范,搭建配置标准化及运维自动化平台建设; 5.探索前沿AI技术在运维领域的创新应用,推动新技术在运维场景中的落地应用。

更新于 2025-11-11上海
logo of aliyun
社招3年以上诚云科技

1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。

更新于 2025-11-24北京|杭州
logo of aliyun
社招4年以上诚云科技

1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;

更新于 2025-11-24北京|沈阳
logo of aliyun
社招4年以上诚云科技

1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;

更新于 2025-08-25杭州