logo of siemens

西门子高级IT基础设施运维工程师 - 系统可用性与SRE方向

社招全职5-10年信息技术地点:深圳状态:招聘

任职要求


1.	经验:
o	5年以上互联网行业生产环境运维经验,有大型电商、金融或高并发在线服务平台运维经验者优先。
o	具备丰富的一线故障排查和应急响应经验,能处理过各类复杂的线上紧急故障。
2.	技术技能:
o	精通Linux操作系统内核、网络、性能调优及故障排查。
o	精通至少一种云平台(AWS/Aliyun/GCP) 的核心服务(EC2, VPC, RDS, S3, LB等)。
o	精通容器化技术(Docker)和编排工具(Kubernetes)。精通k8s集群管理, 如Aliyun ACK , ACP 管理能力。 
o	精通监控栈: 有搭建和维护Prometheus, Grafana, Alertmanager, ELK/EFK等工具的经验。
o	扎实的网络知识: 深刻理解TCP/IPHTTP/HTTPS、DNS、负载均衡等协议和组件。精通waf, ddos , alb   7层及4层协议的管理与配置。 
o	自动化能力: 熟练使用Shell/Python/Go等至少一种语言编写运维脚本,有Ansible/Terraform等…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位概述:
我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。

核心职责:
1.	系统高可用性保障:
o	负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。
o	设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。
2.	监控与应急响应:
o	主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。
o	作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。
3.	事故全生命周期管理:
o	严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。
o	主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。
4.	运维自动化与效率提升:
o	通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。
o	践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。
5.	容量规划与性能优化:
o	定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。
o	分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。
6.	系统组件的安全升级及维护:
o	常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。
o	借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
包括英文材料
高并发+
Linux+
内核+
性能调优+
AWS+
S3+
Docker+
Kubernetes+
Prometheus+
Grafana+
ELK+
TCP/IP+
HTTP+
Bash+
还有更多 •••
相关职位

logo of tesla
社招5年以上基础架构

特斯拉正在寻找一位富有激情和丰富经验的数据中心工程师加入我们的IT基础设施及运营团队,负责数据中心基础设施,理想的候选人具备丰富的设计,建造以及维护数据中心基础设施的能力,包括但不限于计算机、通信、流程管理,电力,暖通和智能化等领域的专业知识,候选人将会帮助我们建造下一代数据中心来保障我们的IT基础设施99.99%可用。 岗位职责 负责数据中心业务连续稳定、制定并达成SLA、参与新数据中心的建设、现有数据中心的扩展以及包括计算、存储、网络和其他基础设施组件在内的部署; 负责参与数据中心服务器,网络设备部署、资产管理、上架、布线及硬件资源规划; 负责服务器硬件(CPU、内存、硬盘、RAID卡、网卡、电源等)的安装、调试、维护及故障排查; 负责制定流程规范、推动自动化工具落地,提升团队效率和质量; 负责运维服务过程中的问题处理及管控进度,并对项目实施及售后服务工作持续优化; 负责编写数据中心运维文档,包括数据中心基础设施,设备维护手册、故障处理 SOP 等; 负责设备生命周期的过程优化和治理,完成产品的线上化推进过程的风险管控和保障; 负责资源交付、设备运维、供应商及IDC数据中心IT管理,持续完善标准流程规范制定; 具有较强的分析问题解决问题的能力,具有良好的团队沟通协作能力; 根据需要为多个团队提供远程服务,包括重启、测试/故障排除等; 建设交付及压力测试,数据中心平面图,机柜立面图、机电安装图,容量文档,资产管理和其他必要的设计文件; 数据中心智能化,信息化建设和管理。

上海
logo of jd
社招10年以上运维工程师岗

1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。

更新于 2025-10-10北京
logo of jd
社招10年以上运维工程师岗

1、负责公司全球网络架构的规划设计、部署实施和维护优化,保障网络的高可用性、高性能和高安全性。 2、负责公司网络整体运营保障,网络安全防护 ,网络性能监控及网络故障处理。 3、负责公司IT预算管理,IT设备的选型,进行公司网络设备、网络架构的标准化修订工作,参与全球供应商的商务谈判,包括全球运营商管理,供应商等商务资质和流程的推进。 4、负责和指导开发自动化运维工具,不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。 5、赋能公司其他部门,提供网络技术支持和建议,助力业务系统的开发与部署。 6、持续跟踪技术和产业发展趋势,深刻洞察公司业务需求,构建满足业务需求和技术领先的IT基础设施。

更新于 2025-10-16北京
logo of wondershare
社招5年以上

1.负责公司内部IT基础设施规划(主要长沙及万兴科技非深圳国内办公地区): (1)对公司信息化规划设计,覆盖总部和各分支机构IT基础系统新增、优化、更新方案; (2)覆盖局域网办公使用、物联网智能控制及桌面运维服务;环境控制信息发布系统;安全管控门禁系统视频监控;办公效率系统:视频会议,电话系统。 2.负责IT基础设施管理(主要长沙及万兴科技非深圳国内办公地区): (1)根据信息化规划要求,组织和协调各种资源,指导和帮助公司内部客户有效的使用IT应用系统; (2)根据基础IT系统使用反馈情况,通过更改配置,变更系统架构等方法, 实现业务系统稳定运行,有效支撑所服务的业务运营; 3.重要工作和项目推动达成:开展公司级项目和部门重点工作,落实项目和重点工作的达成。 4.公司所有应急事件响应:对公司IT基础系统,物联网智能控制系统,组织重要视频会议等情景发生突发事件进行处置,对事件进行评估分析,在突发事件出现时快速定位并解决,事后总结复盘形成改善行动。

更新于 2024-09-12长沙