
巨人网络高级/资深运维工程师
任职要求
1、5年以上Linux运维相关工作经验,熟悉shell、Python; 2、熟悉Redis、Mongo集群维护, 并具备系统(Linux系统、网络、存储)故障排查和解决经验; 3、对游戏业务运维保障有丰富的实践经验,在复杂业务场景下的流程优化和改进、系统的高可用性架构实现; 4、具备出色的问题分析和解决能力,对问题有清晰的分析逻辑和全局思维; 5、有K8S集群管经验,及Docker容器维护相关经验者优先; 6、良好的沟通、协作能力,责任心、自驱力优秀; 7、有较强的抗压能力和良好学习能力,愿意接受新事务。
工作职责
1、负责游戏/应用系统部署搭建、版本更新、系统监控、日常维护和故障应急响应; 2、根据业务重要等级,推动关键业务规避单点问题,并具有高可用、多机房容灾的能力; 3、推动及开发自动化运维、管理平台建设,提升运维工作效率; 4、参与系统架构的可运维性设计,管理完善监控报警平台,提升稳定性保障; 5、负责收集工作中的痛点和不足,总结经验,优化流程,持续提升运维的质量和效率。

1. 负责devops体系设计和主导建设,关注业内devops体系发展,结合业务和运维的当前现状制定合适的演进路线。 2. 负责devops系统的整体架构设计、产品形态定义、核心代码逻辑的编写,引进行业内和社区效能相关的先进工具及技术等。 3. 和业务开发、运维保持良好沟通,密切配合,进行相关的工具链、流程及平台等的建设,并帮助推进运维规范化流程和制度,并通过系统研发落地。 4. 提升团队整体的自动化水平,创建高效的开发人员体验并减少人工干预,涵盖CI/CD,配置管理和数据上线。
1、负责支撑整个部门的产品运维工作,包括Linux操作系统及基础服务如Nginx、Kvm、DNS、DHCP、ES等日常管理和维护; 2、负责排查处理linux下的各类故障告警,进行相关系统调优, 持续完善监控告警体系; 3、参与自动化运维工具和平台开发,提升自动化程度,减少人为操作风险;通过工具和平台将运维能力赋能给外部其他团队,提高整体效率; 4、负责业务产品的服务器系统层架构设计,实施和维护高可用性、高性能系统架构,确保服务稳定性,将可靠性作为系统设计的核心目标 5、与开发、网络等其他团队紧密协作,提供所需系统层面技术支持和解决方案; 6、持续优化运维操作和流程,建立和维护完善的技术文档,构建团队知识库,促进经验共享和知识传承; 7、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量。
1、负责服务器系统安装和问题排障; 2、负责分析解决服务器运行中的各类硬件问题; 3、负责服务器状态监控和数据分析,及时发现并解决潜在问题; 4、负责服务器硬件的调研,测试,输出技术报告,持续跟进技术发展趋势; 5、协助服务器带外(Out-of-band)管理,开发自动化运维工具; 6、编写和维护知识库文档,跟踪、推进问题修复进展。

1. 安全监控与事件管理 负责7x24小时安全监控体系的运营与管理,覆盖云平台(AWS、Azure等)、SaaS应用等 精通并主导使用SIEM工具(如Splunk、Prisma Cloud)进行高级威胁狩猎、异常检测和告警优化,确保安全事件的全链路可视性。 具备SOAR平台(如Cortex XSOAR等)的实际操作经验,能够进行剧本开发、案例管理或平台运维 领导并协调针对复杂安全事件的应急响应,包括但不限于入侵分析、恶意软件处理、账户盗用等,并负责根因分析、遏制、 eradication 和恢复。 2. 安全工程与自动化 设计、开发和维护安全自动化脚本与工作流(利用AWS Lambda, CloudWatch, Python等),以实现安全流程的标准化与效率提升,覆盖检测、响应与修复环节。 负责评估、集成与优化安全工具与技术栈(如EDR、IDS/IPS、Capsule8规则、CloudProber、Grafana仪表板等),提升安全控制的效能。 3. 威胁情报与漏洞管理 主动跟踪、分析和评估新兴的网络威胁、攻击手法和漏洞(如0-day),并转化为可行动的情报与防护措施。 主导或深度参与漏洞管理全生命周期,包括扫描、评估、优先级划分及推动修复。 4. 合规、协作与知识传承 确保安全运维实践符合内外部合规要求与标准(如ISO 27001、SOC2、GxP、PCI-DSS等),并参与相关审计工作。 与云安全、DevOps及研发团队紧密协作,将安全控制(如安全基线、漏洞防护)无缝集成到CI/CD pipeline和云基础设施中,推动“安全左移”。 编写高质量的技术文档、事件事后分析报告,并向管理层汇报安全态势与风险。 担任团队内的技术导师,培养L1/L2工程师,分享专业知识与最佳实践。