阿里云阿里云智能-技术服务专家-公共云值班长-北京/上海/杭州
任职要求
1、5年以上互联网、金融等行业大型互联网应用或集团型企业应用的解决方案、架构设计、交付和运维相关经验。 2、至少3年以上的弹性计算、数据库、存储、云原生、网络、大数据等相关工作经验,并在某个专业领域有一定技术深度。 3、熟悉高可用架构设计和系统调优,有云上护航、容量规划、架构优化、容灾建设、成本评估及优化、应用与数据迁移等工作经验。 4、熟悉云计算产品与技术原理,并有实操使用经验,有阿里云公共云产品相关使用运维经验优先。 5、具有较强的责任心、抗压能力,并能接受一定频率的出差,对技术和问题有专研、持续学习的热情。 6、具有较强的沟通表达能力、文档写作能力。 加分项: 1、有阿里云技术认证ACA(阿里云认证助理工程师)、ACP(阿里云认证工程师)、ACE(阿里云认证高级工程师)者优先。 2、有基于阿里云产品的大规模应用开发或运维经验。
工作职责
1、客户应急体系建设 (1) 通过流程机制优化、系统工具和标准化建设,面向阿里云全体公共云客户,提升自动化故障应急能力支撑,实现故障的早发现、早通知和早解决。 (2) 重大面积型故障,提供从故障应急、故障复盘到对客故障沟通整体支持工作,同时内部定期组织演练,提升大故障的应急协同效率。 2、故障改进治理:通过对故障复盘和分析,识别运行风险,针对重点大客户主动推进治理、推荐最佳实践、完善止血逃逸能力。 3、客户稳定性保障:提供面向客户的稳定性服务解决方案,包括故障的预防,出现故障后的快速发现和恢复,及事后的优化改进和故障演练。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性; 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性; 3、运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发; 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
1. 建设灵骏在专属云场景监管控系统核心能力,不断提升专属云客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足专属云业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品在专属云市场的产品竞争力。 3. 结合专属云特殊基础设施情况,建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;