字节跳动系统智能运维架构师
任职要求
1、本科及以上学历,有5年以上大型互联网公司运维平台架构设计经验,精通系统的韧性和高可用性设计; 2、精通云计算、容器化和微服务架构,有丰富的SRE知识和经验,熟悉各种SRE工具和最佳实践; 3、具备深入了解大规模分布式系统的能力,熟悉Linux操作系统,具有故障定位诊断运维系统设计经验; 4、具备优秀的沟通能力和解决问题的能力,,能够与不同团队合作,有良好的团队合作精神,抗压能力强。
工作职责
1、结合部门技术能力与相关技术域进行协同,设计与规划面向未来具备竞争力的故障诊断与自愈系统; 2、与SRE和业务部门紧密合作,通过设计与规划的系统解决用户的现网通道,提升整体的运维效率与质量; 3、与产品和开发团队一起设计开发高稳定性的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,提供创新的解决方案,优化系统架构;主导一个或者多个运维系统中长期的技术规划; 5、具备全面的技术能力,能参与负责故障应急响应,帮忙团队一起解决生产环境中的复杂故障。
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供领先的技术解决方案和服务,具备超大业务规模以及最复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验 岗位职责: 1、技术洞察和问题定义 •洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。 •结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。 2、架构规划 •对所在领域业务进行架构抽象,建立整体业务领域模型。 •制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。 3、架构设计 •设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。 •把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。 •拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。 4、架构落地 •识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。 •梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。 •负责部分核心代码编写,虚实结合,做好架构管理。 5、架构治理和演进 •制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。 •负责架构管控,参与领域的重大架构决策,管控架构变更。 •识别不合理业务和架构设计,定期评估架构成熟度。 •基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。 6、技术沉淀和赋能 •团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。
1、负责稳定性运维平台的构建,推动应急协同,风险隐患巡检,监控发现等能力的平台化、智能化; 2、负责稳定性规范和度量的制定,包括但不限于研发质量,变更发布,主机亚健康、宕机治理等方面,并推动相关的稳定性规范在研发侧落地; 3、负责生产环境的应急响应,故障定位,故障快速恢复,并推动上下游相关改进措施的落地。
1、负责稳定性运维平台的构建,推动应急协同,风险隐患巡检,监控发现等能力的平台化、智能化; 2、负责稳定性规范和度量的制定,包括但不限于研发质量,变更发布,主机亚健康、宕机治理等方面,并推动相关的稳定性规范在研发侧落地; 3、负责生产环境的应急响应,故障定位,故障快速恢复,并推动上下游相关改进措施的落地。
字节DPU团队致力于构建字节跳动以及火山引擎公有云的计算基础设施底座,致力于下一代云计算领域底层软硬件技术(计算/网络/存储)的研发和探索,含下一代的软硬一体虚拟化 Hypervisor 底座、自研用户态网络协议栈、高速传输协议及应用、虚拟网络交换机、高性能存储栈等技术方向的生产开发与前沿探索。 1、负责稳定性运维平台的构建,推动应急协同,风险隐患巡检,监控发现等能力的平台化、智能化; 2、负责稳定性规范和度量的制定,包括但不限于研发质量,变更发布,主机亚健康、宕机治理等方面,并推动相关的稳定性规范在研发侧落地; 3、负责生产环境的应急响应,故障定位,故障快速恢复,并推动上下游相关改进措施的落地。