蚂蚁金服蚂蚁集团-SRE专家-云平台【平台工程】
任职要求
1. 知名互联网企业专注系统稳定性工作三年以上,或从事系统架构师/资深研发工程师五年以上,java研发功底扎实,有大规模在线服务系统架构设计和稳定性保障经验,对如何做好系统稳定性保障有全面深入的理解; 2、喜欢做系统稳定性技术风险专业相关的事情,愿意在这个领域长期发展; 3、乐于挑战业务和技术难题,能够探索新方法新思路,全力以赴拿结果。
工作职责
1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。
1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。
1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。
1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率; 2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力; 3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设; 4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题; 5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。

1. 负责公司平台服务运维工作,管理平台运维团队,提升业务稳定性和工程效率。 2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作。 3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代。 4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化。 5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复。 6. 负责应用容器化场景下高可用建议及管理,包括限流、降级,容错、容灾确保应用质量。 7. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。