腾讯腾讯云-产品稳定性专家SRE--H
任职要求
1.8年以上工作经验,具有大型分布式系统或云计算领域的运维,架构及研发经验。在产品稳定性领域,有深入的理解和实践; 2.具备全局意识和体系化思维,具备复杂问题的抽象和分解能力,能识别共性问题和关键问题,具备技术选型决策能力,有大型项目技术负责人经验; 3.具备较强的技术能力和丰富的云产品经验,熟悉云产品(计算,网络,数据库)的用法,架构以及底层实现。熟悉操作系统,数据结构算法,至少掌握两种编码语言; 4.在稳定性领域具备系统化的保障能力,包括不限于流程建设,工具建设,指标度量,结果验收等; 5.具备较强的沟通能力和协调能力,以稳定性为目标,能够平衡业务价值和技术价值,平衡短期目标和长期目标,有效推进问题解决; 6.掌握同城多活、异地容灾、异地多活等容灾架构方案,在持续集成、容灾演习、混沌工程、监控等领域中,有相关实践经验优先。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.负责云产品稳定性治理,保障业务高度稳定性; 2.负责云产品稳定性方向路线规划,洞察领域发展方向,熟悉前沿进展,结合腾讯云现状制定目标达成路线; 3.负责云产品稳定性体系建设,包括不限于流程管理,Devops全生命周期管理,容量管理,告警治理,故障生命周期管理,红蓝对抗演习,混沌演习等; 4.负责云产品稳定性架构优化,可以根据不同业务业务架构,抽象共性,以稳定性为目标制定标准规范,识别风险,拆解任务,验收结果最终达成稳定性目标; 5.负责云产品稳定性组件&工具建设,通过组件或工具提升稳定性治理效率。
1. 数据产品业务专家经验:深入了解数据库产品产品业务场景,内核架构,核心功能,链路关系(数据库产品/数据同步链路),站在风险视角,具备与产研同学技术层面平等对话能力。 必备技能:在线数据库产品技术,加持技能:离线/实时数据计算存储产品了解(spark/flink/hbase等) 2. 数据产品稳定性风险专家经验:面向数据库产品,基于数据产品业务了解,具备快速抽象存量风险,新增风险能力。 面向风险具备设计事前测试(覆盖功能,性能,稳定性,容灾恢复等),事中变更(变更产品功能充分度评估及验证),事后应急恢复(运维产品快速应急充分度评估及验证)的整体风险管控方案。 3. ownership:作为owner,具备自主定义工作,完成0-1方案建设能力,进度自驱跟进,与产研SRE对话能力。为稳定性工作负责,业务稳定性能力具备拆解工作项,带领其他同学完成质量保障工作能力。 4. 技术能力:能够主导领域/大型项目的整体测试工作,包括测试分析、测试用例落地、测试流程规范、测试进度管理、测试风险发现等。 具备至少一种技术栈能力:Java,Python,SQL。可编写SOP化的自动化测试框架,开发自动化工具/平台,设计复杂场景, 如:极端压力测试,破坏性测试等。熟悉CICD研发流程,保障稳定性基础上,兼顾效率。同时在领域稳定性保障上,具备技术破冰能力。
1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。
1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。