阿里云诚云科技-资深应用运维工程师-通义实验室
任职要求
1、本科以上计算机及相关专业; 2、有三年以上的SRE/Devops经验,有大型互联网公司运维经验者优先; 3、熟悉阿里云公有云服务,具备公有云基础运维经验(如VPC、ECS、SLB、RDS等); 4、熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障解决经验; 5、至少掌握Python/Go/Shell任意一门语言,有运维工具开发经验者优先; 6、具备优秀的逻辑分析能力与系统性思维,对技术敏感度高,有强烈的责任心和抗压能力,适应快节奏业务场景。具备优秀的沟通能力,执行力和解决问题的能力。 加分项: 1、有大规模分布式系统(日请求量超千万级)稳定性建设经验。 2、参与过混沌工程、全链路压测、多活容灾等大型稳定性项目。 3、有云原生技术(如Serverless、Service Mesh)落地经验或开源项目贡献者优先。
工作职责
1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。
ꔷ 主导疑难问题工单的分析与解决,保障客户核心业务稳定运行; ꔷ 参与客户业务重保(Critical Support)方案设计与执行,提升客户满意度。 用户体验优化与产品改进 ꔷ 从工单中定位产品缺陷,提炼用户需求,提出优化建议; ꔷ 推动产品质量与功能迭代,通过技术改进提升用户体验。 运维平台智能化建设 ꔷ 参与大数据运维平台的产品化及智能化升级,主导售后工具、运维平台的开发与优化; ꔷ 基于历史工单数据、开源社区知识库,结合 MCP、RAG 等大模型技术,构建智能运维体系,提升售后响应效率与问题解决能力。 运维服务体系建设 ꔷ 负责运维服务体系的规划与落地,包括团队生态人员招聘、技能培养及知识沉淀; ꔷ 制定运维能力提升计划,确保团队高效支持复杂场景
1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等