阿里云阿里云智能-容器应用及交付平台技术专家-杭州
任职要求
1. 5年以上java或golang开发经验,掌握语言特性,掌握主流数据库、缓存、消息队列等中间件的使用及原理 2. 具备良好的抽象设计能力,熟练使用常用设计模式,有一定的系统或模块设计经验 3. 熟练掌握k8s operator的开发和故障排查能力 4. 熟悉linux操作系统环境,有分布式系统开发经验的优先 5.有良好的沟通协调能力,能够与各个产品团队紧密合作,有过横向项目支持经验的优先
工作职责
1. 负责容器应用平台的架构设计与开发,构建业内领先的PAAS平台,完成应用接入以及云的建站部署 2. 负责K8S组件以及Operator的设计与开发,为容器应用的部署运维阶段提供相应的能力 3. 负责容器应用平台自身性能、稳定性、可扩展性等领域的持续演进
1. 负责容器应用平台的架构设计与开发,构建业内领先的PAAS平台,完成应用接入以及云的建站部署 2. 负责K8S组件以及Operator的设计与开发,为容器应用的部署运维阶段提供相应的能力 3. 负责容器应用平台自身性能、稳定性、可扩展性等领域的持续演进
1. 负责公司AI基础设施的安全体系规划与架构设计,推动安全能力建设,提升整体安全防护水平; 2. 针对传统数据中心、公有云、私有云及混合云等多元化环境,制定并实施高效的安全防护与风险管理方案; 3. 深入参与AI应用、模型交付、数据流转等AI相关关键环节的安全策略设计与落地,保障业务安全合规; 4. 负责服务器、核心系统、AI应用平台等基础设施的安全策略制定、实施、安全审计与持续优化; 5. 跟踪AI领域及安全行业前沿动态,持续引入新技术、新方法,提升公司在AI安全领域的防御能力。
1. 负责阿里云容器产品管控系统的架构设计、功能开发和运维管理,打造稳定易用的容器服务管理平台。 2. 维护高性能、高可用的阿里云容器管控服务,保障业务系统在全球地域的稳定性。 3. 深入参与产品全生命周期研发管理,持续优化提升产品安全、稳定、性能、功能与用户体验,以技术驱动业务增长。 4. 推动系统架构演进及优化,关注前沿技术发展,完成技术预研和技术难点攻关。
1、运维可观测链路建设 • 对稳定性有全局化的思考能够制定稳定性方案并落地; • 事前:建立并持续优化应用运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化应用运维的预警机制,确保故障能够被快速发现、快速定位、快速处置; • 事后:快速分析、诊断、定位问题,并能够协同相关人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保业务稳定运行;通过稳定性治理专项、架构优化等排除潜在风险。 2、稳定性运维平台建设 • 设计、研发并维护可靠的运维平台、工具,如巡检系统、水位系统、交付系统、成本管理系统等,帮助解决生产系统遇到的交付、性能、稳定性、成本等问题,保障业务持续可用,提升性能与效率; • 负责运维质量数据化分析工作,通过对日常运维指标、问题、风险进行分析和研究,建立模型,给出运维优化建议; 3、应用运维规范标准建设 • 建设应用运维流程规范以及标准化(如变更标准、重保方案、云产品配置标准等),确保运维的规范性和标准化,提升运维稳定性; • 制定应用运维的故障应急处置规范标准; • 制定应用运维的报警处置规范标准以及SLA; • 制定应用运维的成本把控规范以及考核标准。 4、资源调优 • 基于业务需求规划,进行预算编制、容量规划与准备,协调研发进行存储、计算等资源消耗的预测与估算; • 分析业务需求,在确保稳定性的前提下,结合水位和规格以及计费规则等,并把控技术方案中资源估算合理性,协同研发降低资源成本。 5、安全保障建设 • 7*24应急响应,日常监控报警和应急处置并对存在的问题持续发现并整改; • 负责重大节点(如国庆、春节、元旦)的运维保障工作; • 应急预案的制定及演练、应急响应和故障处理等事项; • 建立问题/故障记录库,对记录库进行针对性分析,补齐并优化应急预案库和规范流程库; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升系统的安全性。 6、架构升级 • 负责系统架构升级,如内核升级、网络架构升级、服务跨机房迁移、容器化改造等; • 持续挖掘云产品的功能以及使用能力结合业务需求场景进行优化; • 负责容灾架构设计并实施,如同城容灾、异地多活等。