logo of meituan

美团基础设施/服务器系统运维

社招全职5年以上核心本地商业-基础研发平台地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业。
2、关于服务器设备的技术研究,异常处理,日常维护,具有5年以上相关经验。
3、对服务器的组成结构,服务器的计算链路,服务器的IO链路有深入的理解,并具有很强的故障定位和问题解决能力。
4、熟悉Linux,熟练使用ShellGo、Python中的至少一门脚本语言。
5、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责服务器设备的故障诊断、故障维修、运维支撑等工作。
2、负责服务器相关的技术方案和项目实施,以及服务器生命周期内的系统运维工作。
3、学习和研究服务器相关新技术,并将新技术与运维自动化环境进行兼容适配。
4、做运维自动化工具的开发,提升运维工作的自动化能力。
包括英文材料
学历+
Linux+
Bash+
还有更多 •••
相关职位

logo of insta360
社招5年以上

岗位职责 1、IDC机房管理:负责IDC机房的日常运维和管理,人员进出管理和机房环境设备(精密空调,UPS电源,气体消防等)的管理,确保机房各类设备的稳定运行; 2、服务器硬件资源管理:负责公司服务器、存储设备等硬件设施的运行监控、日常维护及故障处理,负责公司IDC机房服务器资源的统一规划和管理,包括需求评估,设备选型、资源交付服等; 3、服务器系统运维管理:负责公司IDC机房(包括不限于虚拟化、存储、CMDB、AD、DNS、jumpserver、自动化运维工具等)的运维管理,并协助应用系统负责人保障业务系统的正常运行; 4、监控平台建设和管理:负责服务器系统监控平台更新与维护,持续优化监控项和收敛报警,实现对公司所有服务器硬件、软件、系统的实时监控,保障业务系统的连续性; 5、公司数据安全管理:负责公司数据备份和灾备系统的规划、建设、维护与管理,定期进行数据备份的恢复演练,确保公司数据的安全性; 6、IT项目建设和管理:负责公司基础架构相关项目的方案评估、实施落地与进度管理等,确保项目按期交付; 7、流程制度及规范的建立:负责基础架构运维相关工作流程、SOP的制定与优化;

更新于 2025-11-13深圳
logo of eastmoney
社招5年以上技术类

上海
logo of 58
社招6年以上管理类

1,负责58集团基础设施运维与SRE体系的建设与规划,包括但不限于IDC,服务器,操作系统,网络,接入层,CDN等方向。 2,针对业务需求和技术难点,通过合理的技术选型和升级迭代,确保业务持续稳定运行,实现降本增效。 3,组织与管理团队,打造可靠、高效、开放与协作型团队。

更新于 2023-08-15北京
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳