西门子高级IT基础设施运维工程师 - 系统可用性与SRE方向
任职要求
1. 经验: o 5年以上互联网行业生产环境运维经验,有大型电商、金融或高并发在线服务平台运维经验者优先。 o 具备丰富的一线故障排查和应急响应经验,能处理过各类复杂的线上紧急故障。 2. 技术技能: o 精通Linux操作系统内核、网络、性能调优及故障排查。 o 精通至少一种云平台(AWS/Aliyun/GCP) 的核心服务(EC2, VPC, RDS, S3, LB等)。 o 精通容器化技术(Docker)和编排工具(Kubernetes)。精通k8s集群管理, 如Aliyun ACK , ACP 管理能力。 o 精通监控栈: 有搭建和维护Prometheus, Grafana, Alertmanager, ELK/EFK等工具的经验。 o 扎实的网络知识: 深刻理解TCP/IP、HTTP/HTTPS、DNS、负载均衡等协议和组件。精通waf, ddos , alb 7层及4层协议的管理与配置。 o 自动化能力: 熟练使用Shell/Python/Go等至少一种语言编写运维脚本,有Ansible/Terraform等工具使用经验。‘ o 组件维护及管理: 精通但不限于nacos, kafka, rds, kafka , elasticSearch , oss, dataworks等组件的维护于管理能力。 o 网络维护: 精通vpc组网, 路由设置, 网络安全组设置, 精通k8s组网及构建集群间的网络通讯能力。 3. 软技能与素质: o 强大的抗压能力和冷静的心理素质,能在高压下保持思路清晰,快速决策。 o 卓越的问题分析和技术复盘能力,追求根因,不满足于表面解决。 o 强烈的责任心和主人翁精神,对线上稳定性有极高的要求。 o 出色的沟通和协作能力,能清晰、准确地在故障中与开发、测试、产品等多方沟通。 加分项: • 有互联网大规模SRE团队工作经验。 • 持有相关专业认证(如CKA, CKAD, AWS/Aliyun 专家级认证)。 • 有CI/CD流水线维护和优化经验。 • 熟悉分布式数据库(MySQL, Redis, MongoDB等)的运维和原理。 • 具备一定的开发能力,能够阅读Java/Go/PHP等业务代码以辅助排查问题。
工作职责
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。
1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。
1.负责公司内部IT基础设施规划(主要长沙及万兴科技非深圳国内办公地区): (1)对公司信息化规划设计,覆盖总部和各分支机构IT基础系统新增、优化、更新方案; (2)覆盖局域网办公使用、物联网智能控制及桌面运维服务;环境控制信息发布系统;安全管控门禁系统视频监控;办公效率系统:视频会议,电话系统。 2.负责IT基础设施管理(主要长沙及万兴科技非深圳国内办公地区): (1)根据信息化规划要求,组织和协调各种资源,指导和帮助公司内部客户有效的使用IT应用系统; (2)根据基础IT系统使用反馈情况,通过更改配置,变更系统架构等方法, 实现业务系统稳定运行,有效支撑所服务的业务运营; 3.重要工作和项目推动达成:开展公司级项目和部门重点工作,落实项目和重点工作的达成。 4.公司所有应急事件响应:对公司IT基础系统,物联网智能控制系统,组织重要视频会议等情景发生突发事件进行处置,对事件进行评估分析,在突发事件出现时快速定位并解决,事后总结复盘形成改善行动。
1. 负责公司内部办公网络的基础设施。对网络,办公环境连通性,基础办公设施及其他IT相关设施稳定性负责。主持建立统一的基础设施建设标准并落地执行 2. 建设,管理,提升网络及基础设施运维相关的综合业务能力。能够把基础设施服务与IT服务台,故障管理,监控平台等工具或团队进行业务整合。 3. 负责公司内部网络相关的基础安全体系搭建,管理基于零信任体系下的办公网安全相关服务建设,并完成相应的日志,审计,准入体系。 4. 提供对内信息化服务业务过程中的网络技术支持,为具体业务场景下的技术优化与业务优化负责。为IT基础设施需求提供专业的网络支持。 5. 负责对互联网相关业务在办公环境下的落地优化。例如内容缓存访问,生产/办公环境互联优化等。 6. 为一线服务团队提供标准,流程,规范和指导文档;与一线服务团队协作共同完成服务的全生命周期管理。