字节跳动混合云高级运维交付专家-火山引擎
任职要求
1、5年以上云计算交付运维相关工作经验,2年以上团队管理经验; 2、熟悉Linux环境,熟练使用一种以上脚本语言,熟悉Linux性能分析和调优,有良好的计算机网络基础,熟悉Ansible、SaltStack、Puppet、Terraform等自动化部署和编排工具开发和使用; 3、熟悉OpenStack、KVM、Docker、Kubernetes等虚拟化/容器化/编排调度相关技术; 4、有良好的沟通能力和团队合作意识,有较强的自驱力和责任感。
工作职责
1、负责混合云运维交付团队的搭建和管理,主导混合云产品的交付运维工作; 2、参与运维工具和平台的设计与开发,持续提升运维和交付效率; 3、建立长效机制,识别产品和项目交付或升级中存在的问题并跟进优化。
业务主要方向 • 交付履约平台研发,主要面向:阿里云的对客混合云履约,国际项目履约,专有云项目履约。 • 专有云技术服务平台研发,主要:为阿里云专有云驻场运维服务提供业务平台,保障客户驻场安全。提供专有云工单服务平台,帮助专有云的专家对客进行工单服务。 • 平台智能化方向,主要:结合大模型,对平台进行智能化改造,提高平台的效率,并帮助平台客户提供更智能化的服务。同时将成功经验对外商业化输出。 技术方案设计&技术实现 • 能够针对业务和产品的需求,在技术阶段:进行技术架构设计。在编码阶段:进行代码开发。部署阶段:推动代码CR,成功部署,并保证系统稳定性。 项目管理 • 自己能够把控节奏,确定项目的开发节奏和上线节奏。明确合作的岗位职责并进行任务分配。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)
1、负责小米汽车自动驾驶全球云端基础设施和基础服务的规划、建设、稳定性和可用性保障等; 2、负责小米汽车自动驾驶全球业务架构审核、系统监控、持续交付、应急响应、容量规划等; 3、负责小米汽车自动驾驶数据全流程合规和运维支持; 4、参与小米汽车全球混合合规云平台建设; 5、持续的创新和优化能力,提升产品整体质量,改善用户体验,控制系统成本。