快手IT系统运维专家-【综效线-IT中心】
任职要求
1、精通Windows相关服务的部署与运维管理(如:AD、DHCP、WSUS、EXCHANGE等); 2、精通IT基础办公服务部署与运维(如:DNS、SAMBA、MYSQL等); 3、擅长运维云计算(如:虚拟化KVM、Kubernetes、Docker等); 4、擅长运维安全和自动化管理(如:jumpsever、入侵检测、zabbix、prometheus、ELK、CICD等); 5、熟练使用Shell、Python、Go、powershell等脚本编程语言的一种,有一定的运维开发能力; 6、熟悉TCP/IP协议、DNS、路由/交换的原理,可协同网络技术人员处理日常问题; 7、熟悉呼叫中心系统,且有五年以上大型互联网公司工作经验者优先。
工作职责
1、负责IT基础架构运维体系的建设和优化改进; 2、负责邮件系统、域控系统、办公电话系统、呼叫中心系统等运维管理相关工作,确保IT办公系统安全可靠稳定运行; 3、完成上级领导交给的其他相关工作。
岗位描述 规划、组织和管理IT相关系统的运维工作,参与IT体系中运维相关部分建设。满足操作工具化、管理自动化、服务平台化的长期建设需求。在包括运维自动化技术,监控技术,网络技术等方向,针对内部应用与基础设施服务,提供承上启下的专业支持服务。并通过与统一的后台服务管理团队的配合与衔接,来确保组织基础设施体系的日常稳定。 业务职责: 1. 组织,定义及实施IT相关业务的系统运维日常工作,设计并推进相关业务的技术迭代与业务演进。为公司内部应用提供体系化的统一应用运维和支持服务; 2. 建设业务系统运维相关能力,为IT业务相关的后台系统提供持续的高可用性服务与自动化业务管理工具; 3. 建设日常服务相关的快速响应能力,对相关业务团队提供快速响应业务需求的工具,服务及相关制度建设; 4. 在系统故障管理场景中,能作为 NOC 中的关键节点承担系统故障管理职责;
1、负责数据平台的交付实施,包括安装部署等工作; 2、负责处理私有化项目的告警、故障响应; 3、负责对客户进行相关培训、协助项目经理完成项目验收工作; 4、负责数据平台/数据仓库的维护工作、解决平台使用过程中客户碰到的问题。
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)