阿里云阿里云智能-DNS网络系统运维专家-北京/杭州
任职要求
1、计算机相关专业,有5年以上中大规模互联网系统运维经验; 2、精通Linux文件系统、内核、Linux性能调优、TCP/IP、DNS、HTTP等协议; 3、熟练使用shell、Python等至少一门脚本语言; 4、有良好的网络、数据存储、计算机体系结构方面的知识,具备很强技术敏感度和故障排查经验; 5、强烈的责任心、良好的沟通和协调能力、极强的业务推动能力、勇于接受挑战; 6、具备智能化/自动化运维的理念,能够独立负责自动化运维工具/平台的开发工作; 7、具备业务、技术及运维的全局视角,对日常运维指标、问题、风险进行分析和研究,通过建立模型预测风险并能形成解决方案并落地。
工作职责
1、运维可观测链路建设 • 对稳定性有全局化的思考能够制定稳定性方案并落地; • 事前:建立并持续优化应用运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化应用运维的预警机制,确保故障能够被快速发现、快速定位、快速处置; • 事后:快速分析、诊断、定位问题,并能够协同相关人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保业务稳定运行;通过稳定性治理专项、架构优化等排除潜在风险。 2、稳定性运维平台建设 • 设计、研发并维护可靠的运维平台、工具,如巡检系统、水位系统、交付系统、成本管理系统等,帮助解决生产系统遇到的交付、性能、稳定性、成本等问题,保障业务持续可用,提升性能与效率; • 负责运维质量数据化分析工作,通过对日常运维指标、问题、风险进行分析和研究,建立模型,给出运维优化建议; 3、应用运维规范标准建设 • 建设应用运维流程规范以及标准化(如变更标准、重保方案、云产品配置标准等),确保运维的规范性和标准化,提升运维稳定性; • 制定应用运维的故障应急处置规范标准; • 制定应用运维的报警处置规范标准以及SLA; • 制定应用运维的成本把控规范以及考核标准。 4、资源调优 • 基于业务需求规划,进行预算编制、容量规划与准备,协调研发进行存储、计算等资源消耗的预测与估算; • 分析业务需求,在确保稳定性的前提下,结合水位和规格以及计费规则等,并把控技术方案中资源估算合理性,协同研发降低资源成本。 5、安全保障建设 • 7*24应急响应,日常监控报警和应急处置并对存在的问题持续发现并整改; • 负责重大节点(如国庆、春节、元旦)的运维保障工作; • 应急预案的制定及演练、应急响应和故障处理等事项; • 建立问题/故障记录库,对记录库进行针对性分析,补齐并优化应急预案库和规范流程库; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升系统的安全性。 6、架构升级 • 负责系统架构升级,如内核升级、网络架构升级、服务跨机房迁移、容器化改造等; • 持续挖掘云产品的功能以及使用能力结合业务需求场景进行优化; • 负责容灾架构设计并实施,如同城容灾、异地多活等。
职位简介:负责南北向接入架构演进,包括七层负载均衡 和 GSLB全球负载均衡的开发以及相应的运维工作 岗位职责 建设高性能、高可用接入层,支持峰值数千万 QPS 的业务场景; 建设业内领先的混合云接入架构,从0-1支持QUIC/HTTP3接入; 负责南北流量的容灾架构,通过合理的容灾手段提升接入稳定性; 负责流量平台、内外网调度,高可用系统的设计和迭代,支持跨云、跨地域单元化流量调度; 负责团队内部核心产品的日常运维、调优、排障和接入平台的持续优化;
1、负责IT基础架构运维体系的建设和优化改进; 2、负责邮件系统、域控系统、办公电话系统、呼叫中心系统等运维管理相关工作,确保IT办公系统安全可靠稳定运行; 3、完成上级领导交给的其他相关工作。
1. 作为阿里云智能在客户侧的服务界面,全流程深入了解大型企业业务场景,与企业的 IT、应用架 构、人员合作,针对客户现有 IT 架构进行梳理与分析,协助并提供 IT 整体架构战略规划的咨询,协同 售前架构师所提供的设计方案的落地、实施和交付工作。 2. 基于阿里云的产品线、技术体系,帮助企业级客户制定 IT 架构和业务流程,包括定制的最佳实践、 异常处理机制和问题应急预案等。帮助客户深度理解云服务,并持续帮助客户提升技术能力。 3. 推动阿里云智能产品不断优化,解决客户使用云计算服务和解决方案过程中的技术问题,不断完善 问题处理机制和流程,与阿里云服务专家、产品专家直接合作,确保企业技术问题高效地解决。
1. 作为阿里云智能在客户侧的服务界面,全流程深入了解大型企业业务场景,与企业的 IT、应用架 构、人员合作,针对客户现有 IT 架构进行梳理与分析,协助并提供 IT 整体架构战略规划的咨询,协同 售前架构师所提供的设计方案的落地、实施和交付工作。 2. 基于阿里云的产品线、技术体系,帮助企业级客户制定 IT 架构和业务流程,包括定制的最佳实践、 异常处理机制和问题应急预案等。帮助客户深度理解云服务,并持续帮助客户提升技术能力。 3. 推动阿里云智能产品不断优化,解决客户使用云计算服务和解决方案过程中的技术问题,不断完善 问题处理机制和流程,与阿里云服务专家、产品专家直接合作,确保企业技术问题高效地解决。