
长江存储PAAS平台运维专家(J13830)
任职要求
1. 计算机、数学等专业本科或以上学历,5年以上PAAS运维领域工作经验; 2. 具备Redis、Elasticsearch、kafka、MQ、Mysql等中间件开发/运维管理经验 3. 具备k8s运维管理经验,了解底层运行原理优先 4. 具备一定的系统调优、性能调优经验,对疑难技术具备独立的排查与分析能力 5. 具备PAAS运维管理经验,且需要带领团队完成运维/运营体系建设等经验,具备一线互联网/大型制造企…
工作职责
1. 团队协作与培训: 与其他团队紧密合作,提供PAAS服务技术支持;定期分享运维经验和优秀实践,提升团队整体技术水平。 2. 技术升级与创新: 持续跟踪PAAS领域的最新技术趋势,评估并引入新的工具和技术以优化现有架构,提高运维效率。 3. PAAS管理与优化: 管理分布式服务,进行容量规划、资源调度、性能监控和故障排查,确保集群的稳定运行和高效利用 。 4. PAAS平台运维: 负责PAAS平台的规划、部署、监控、系统优化,确保平台的高可用性和扩展性。 5. 运维体系设计与优化: 设计并实施高效的PAAS运维体系,包括但不限于自动化监控、故障预警、性能调优和数据备份恢复策略
1)负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2)研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3)落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4)负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险
1、主导大数据PaaS平台建设,以平台产品化和体系化的方式,支撑上述引擎和数据业务方的稳定性、成本和效率的需求。 2、负责大数据实时、离线计算存储引擎的稳定性、成本和效率方向工作,包括风险管理、变更管控、成本治理、性能优化、运维运营效率提升等方向。 3、深入理解上述平台的架构及其支撑的业务(搜推、广告、风控、AI等),帮助业务在稳定性、成本、效率等方向上做更好的架构设计,对生产问题进行诊断和优化,帮助不断提升数据+AI业务的价值。