字节跳动系统智能运维专家
任职要求
1、本科及以上学历,有5年以上稳定性平台架构设计经验,精通系统的韧性和高可用性设计; 2、精通云计算、容器化和微服务架构,熟悉SRE运维场景和运维平台,有多种运维子系统设计经验; 3、具备大规模分布式系统的设计能力,熟悉Linux操作系统,具有系统故障定位诊断运维系统设计经验优先; 4、具备优秀的沟通能力和解决问题的能力,团队协作能力强,有良好的团队合作精神,抗压能力强。
工作职责
1、设计实现面向百万规模数据中心规模具备竞争力的稳定性风险拦截与故障诊断自愈系统; 2、与SRE和业务团队紧密合作,能够针对用户的现网痛点提出合理的系统解决方案,提升整体稳定性; 3、与产品和研发团队一起设计实现具有技术领先优势的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,主导一个或者多个运维系统中长期的技术规划的落地; 5、具备全面的技术能力,能参与负责故障应急响应,协助团队一起解决生产环境中的复杂故障。
1、设计实现面向百万规模数据中心规模具备竞争力的稳定性风险拦截与故障诊断自愈系统; 2、与SRE和业务团队紧密合作,能够针对用户的现网痛点提出合理的系统解决方案,提升整体稳定性; 3、与产品和研发团队一起设计实现具有技术领先优势的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,主导一个或者多个运维系统中长期的技术规划的落地; 5、具备全面的技术能力,能参与负责故障应急响应,协助团队一起解决生产环境中的复杂故障。
1)负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2)研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3)落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4)负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险