logo of bytedance

字节跳动SRE工程师(容灾应急响应方向)-国际化内容安全平台

社招全职5年以上A185461A地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机相关专业, 5年以上互联网运维工作经验;
2、扎实的计算机软件基础知识,了解Linux操作系统、存储、网络IO等相关原理;
3、熟悉一种或多种编程语言,如Python/Go/Java/Shell/C…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、持续支撑国际化内容安全平台内部视频安全、直播安全等多条业务日常稳定性保障,构建并优化可观测性大盘,积极参与容灾响应和应急,持续提升MTTR和SLA;
2、通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性,保证服务SLO;同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力;
3、面对线上问题有体系化的排查思路,快速定位问题能力,建立事故响应机制。
包括英文材料
学历+
Linux+
Python+
Go+
Java+
Bash+
还有更多 •••
相关职位

logo of bytedance
社招5年以上A230181A

1、持续支撑国际化内容安全平台内部视频安全、直播安全等多条业务日常稳定性保障,构建并优化可观测性大盘,积极参与容灾响应和应急,持续提升MTTR和SLA; 2、通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性,保证服务SLO;同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力; 3、面对线上问题有体系化的排查思路,快速定位问题能力,建立事故响应机制。

更新于 2024-09-24北京
logo of aliyun
社招3年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-10-14杭州
logo of dewu
社招技术类

1.主导搜索/推荐核心链路的端到端稳定性建设,基于 SLO/SLI 与错误预算管理变更节奏,确保高可用与快速交付; 2.设计并演进全链路监控、告警、自愈、降级体系,构建自动化响应与回溯机制,加速问题定位与恢复; 3.深度优化计算、存储、调度、编译链路性能,引入并落地 JIT/AOT 等前沿技术,支撑高吞吐、低延迟算法场景; 4.运营与优化 Zookeeper、Nginx、消息队列等核心组件,保障超大规模分布式环境的稳定性与性能; 5.推进非标服务标准化、容器化与云原生化,利用 Kubernetes 构建规模化、自动化、可灰度的交付与运维体系。

更新于 2025-08-27上海
logo of didi
社招5年以上技术

1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。

更新于 2026-01-13