阿里云阿里云智能-技术服务专家-公共云值班长-北京/上海/杭州
任职要求
1、5年以上互联网、金融等行业大型互联网应用或集团型企业应用的解决方案、架构设计、交付和运维相关经验。 2、至少3年以上的弹性计算、数据库、存储、云原生、网络、大数据等相关工作经验,并在某个专业领域有一定技术深度。 3、熟悉高可用架构设计和系统调优,有云上护航、容量规划、架构优化、容灾建设、成本评估及优化、应用与数据迁移等工作经验。 4、熟悉云计算产品与技术原理,并有…
工作职责
1、客户应急体系建设 (1) 通过流程机制优化、系统工具和标准化建设,面向阿里云全体公共云客户,提升自动化故障应急能力支撑,实现故障的早发现、早通知和早解决。 (2) 重大面积型故障,提供从故障应急、故障复盘到对客故障沟通整体支持工作,同时内部定期组织演练,提升大故障的应急协同效率。 2、故障改进治理:通过对故障复盘和分析,识别运行风险,针对重点大客户主动推进治理、推荐最佳实践、完善止血逃逸能力。 3、客户稳定性保障:提供面向客户的稳定性服务解决方案,包括故障的预防,出现故障后的快速发现和恢复,及事后的优化改进和故障演练。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性; 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性; 3、运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发; 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性; 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性; 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
1. 建设灵骏在专属云场景监管控系统核心能力,不断提升专属云客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足专属云业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品在专属云市场的产品竞争力。 3. 结合专属云特殊基础设施情况,建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。