西门子高级IT基础设施运维工程师 - 系统可用性与SRE方向
任职要求
1. 经验: o 5年以上互联网行业生产环境运维经验,有大型电商、金融或高并发在线服务平台运维经验者优先。 o 具备丰富的一线故障排查和应急响应经验,能处理过各类复杂的线上紧急故障。 2. 技术技能: o 精通Linux操作系统内核、网络、性能调优及故障排查。 o 精通至少一种云平台(AWS/Aliyun/GCP) 的核心服务(EC2, VPC, RDS, S3, LB等)。 o 精通容器化技术(Docker)和编排工具(Kubernetes)。精通k8s集群管理, 如Aliyun ACK , ACP 管理能力。 o 精通监控栈: 有搭建和维护Prometheus, Grafana, Alertmanager, ELK/EFK等工具的经验。 o 扎实的网络知识: 深刻理解TCP/IP、HTTP/HTTPS、DNS、负载均衡等协议和组件。精通waf, ddos , alb 7层及4层协议的管理与配置。 o 自动化能力: 熟练使用Shell/Python/Go等至少一种语言编写运维脚本,有Ansible/Terraform等…
工作职责
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1. 负责统筹IT基础设施和核心系统的日常运维,处理IT系统故障和突发问题; 2. 确保IT应用系统的高可用性,制定并执行相应的可用性策略,制定高可用体系规范,持续优化系统可用性; 3. 推动运维工作自动化与智能化转型,引入自动化运维工具、智能化监控与预警平台,减少人工操作,提升运维效率与故障响应速度; 4. 统筹系统运维体系建设与治理,主导运维流程规划、制度制定,推动变更管理、事件管理、配置管理、服务目录等核心流程的落地和成熟度提升,建立并运营流程与指标体系,持续提升流程合规率、交付时效、服务满意度和 SLA 等关键指标,强化团队对流程的理解与执行力,提升组织在规范化、标准化和可持续运维方面的整体成熟度。
负责公司核心版本控制及资产管理系统的规划、部署、升级、监控、备份与灾难恢复,确保7x24高可用性与数据安全; 深入分析和优化系统性能,处理大规模数据存储、高并发访问带来的挑战,制定并实施容量规划; 建立和完善系统监控、报警体系,快速定位并解决故障,编写运维文档和应急预案; 管理用户权限、仓库结构,制定并执行版本管理策略与流程规范; 设计、开发并维护与核心VSC系统相关的自动化管理工具、插件、脚本及API接口,扩展系统功能; 理解和分析研发团队的工作痛点,配合现有提交流程,提供技术方案支持,优化代码提交,分支合并等流程; 与研发、CI、IT基础设施团队紧密合作,提供VCS领域的技术支持与解决方案; 及时响应用户问题,提供专业级的技术支持与培训,并开发相应的考试系统或提供考试方案与材料。
1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。
1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。