字节跳动客户重保专家-IaaS
任职要求
1、拥有5年以上公有云/IaaS、PaaS相关稳定性保障、解决方案架构师或客户重保经验中的一项或多项; 2、具备大规模分布式系统、基础设施系统等设计开发或运维保障的实战经验,例如复杂业务场景的流程优化、系统高可用性架构实现等; 3、具备搭建观测系统、抽取指标、调优阈值等思路和实操经验,能够分类提炼故障自愈模式,助力系统实现自动/半自动恢复运行; 4、对问题具备清晰的分析逻辑和全局思维,能够提出建设性思路和解决方案,具备良好的沟通和结构化表达能力,具有团队协作意识; 5、熟悉云计算架构,具备扎实的开发编程能力,熟练掌握一门以上开发语言(Golang/Python/C)。 具备以下条件者优先: 1、有业务上云经验,熟悉一家或多家业界主流云厂商的IaaS /PaaS产品者优先; 2、具备一定的全栈能力,对稳定性、SLA保障体系、稳定性优化有深入思考,有面向ToB客户线上稳定性保障经验者优先; 3、擅长架构设计、性能优化,有故障处理、巡检、监控、限流、降级、预案、容量规划等经验者优先。
工作职责
1、负责公有云IaaS、PaaS客户稳定性机制的构建工作,涵盖故障观测、响应机制建立、快速止损措施制定以及系统性改进建设,以确保客户线上业务稳定、可靠运行; 2、负责识别当前客户使用云产品全链路环节的可靠性,通过指标量化评估客户系统部署的健康程度,持续优化系统架构,从故障检测、通知与响应机制、自动恢复和止损效率等方面进行提升,增强IaaS产品的可靠性和稳定性; 3、负责推动IaaS&PaaS客户使用云产品最佳实践的落地,借助风险筛查、隐患排查等亚健康观测手段,帮助客户发现资源使用和系统架构方面的改进点,并协同客户团队落实改进措施; 4、持续跟踪业界前沿技术方案,结合IaaS、PaaS相关实际业务场景,不断迭代引入新技术和新方案,如AI OPS、观测降噪和精准,智能辅助运维等。
1、负责公有云IaaS、PaaS客户稳定性机制的构建工作,涵盖故障观测、响应机制建立、快速止损措施制定以及系统性改进建设,以确保客户线上业务稳定、可靠运行; 2、负责识别当前客户使用云产品全链路环节的可靠性,通过指标量化评估客户系统部署的健康程度,持续优化系统架构,从故障检测、通知与响应机制、自动恢复和止损效率等方面进行提升,增强IaaS产品的可靠性和稳定性; 3、负责推动IaaS&PaaS客户使用云产品最佳实践的落地,借助风险筛查、隐患排查等亚健康观测手段,帮助客户发现资源使用和系统架构方面的改进点,并协同客户团队落实改进措施; 4、持续跟踪业界前沿技术方案,结合IaaS、PaaS相关实际业务场景,不断迭代引入新技术和新方案,如AI OPS、观测降噪和精准,智能辅助运维等。
1、负责公有云IaaS、PaaS客户稳定性机制的构建工作,涵盖故障观测、响应机制建立、快速止损措施制定以及系统性改进建设,以确保客户线上业务稳定、可靠运行; 2、负责识别当前客户使用云产品全链路环节的可靠性,通过指标量化评估客户系统部署的健康程度,持续优化系统架构,从故障检测、通知与响应机制、自动恢复和止损效率等方面进行提升,增强IaaS产品的可靠性和稳定性; 3、负责推动IaaS&PaaS客户使用云产品最佳实践的落地,借助风险筛查、隐患排查等亚健康观测手段,帮助客户发现资源使用和系统架构方面的改进点,并协同客户团队落实改进措施; 4、持续跟踪业界前沿技术方案,结合IaaS、PaaS相关实际业务场景,不断迭代引入新技术和新方案,如AI OPS、观测降噪和精准,智能辅助运维等。
作为产品运营专家,深入了解B端客户/用户在产品应用的痛点和需求,通过推动产品&解决方案的建设,支持客户产品使用和体验改进,提升客户体验,实现客户价值/规模的扩大,主要职责: ● 负责产品的使用培训和帮助文档体系和内容建立,面向B端客户/用户进行生产和传播,不断提升产品的自助服务能力。 ● 牵头组织B端客户的试用、验证、应急、重保等工作。 ● 负责处理客户/用户问题,保证客户问题的解决,保证产品和服务的稳定性、可靠性。 ● 协同阿里云服务团队,在产品线内建设并不断完善服务体系、建设服务能力和运营效率。 ● 策划对核心关键客户的运营策略并执行落地,制定合理的内外部联动机制,进行关键客户运营。 ● 总结最佳实践和工具产品,沉淀标准化方案和技术服务内容,通过工具化、自动化等方式,提升服务体验和服务能力。 ● 整理分析共性问题,洞察痛点,参与产品功能设计和改进,建立端到端体验迭代和优化机制,提升客户的体验。
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)