网易高级运维工程师(SRE)
任职要求
1、计算机、通信等相关专业及本科以上学历,深入理解Linux操作系统和体系结构,有gentoo、LFS经验的优先,熟悉TCP/IP、HTTP/HTTPS等网络协议; 2、熟练掌握Python/Go/Java/Shell/C/C++等至少一种主流编程语言,有良好的编程基础和Debug能力; 3、良好的逻辑思维和分析能力,对计技术充满激情,能持续学习; 4、具备良好的学习能力、团队合作精神,有服务意识、强烈的自我驱动能力和责任心; 5、有云计算/云原生相关技术基础、开源社区研发、大型产品运维运维支撑或开发经验的优先。
工作职责
1、负责支撑网易集团旗下云音乐、Loft、支付等互联网产品的运维工作(涵盖操作系统运维、系统运维、容器运维等多个层面的工作),帮助业务持续提升产品稳定性; 2、负责相关运维工具和平台研发,通过工具和平台将运维能力赋能给外部其他团队,帮助其他团队提升效率; 3、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量; 4、持续优化运维操作和流程,保障海量用户的互联网产品稳定运行。
运维研发工程师(SRE)是指用软件工程的方法来管理系统、解决问题并实现运维自动化,以减少琐事,提高服务的可用性。 包括但不限于如下工作内容: 1. 负责网易互娱业务的运维工作,如蛋仔派对、第五人格、UU加速器、一梦江湖、王牌竞速等在线业务,以及公司内部在研项目。; 2. 根据不同游戏的服务架构、性能需求以及业务情况,为游戏服务端设计选用基础运行环境(包括服务器、虚拟化、云服务、网络、数据库等),为游戏提供可控成本下高质、高效的运维服务; 3. 建立与监控各类运维指标,定制数据分析标准; 4. 联合产品部门,根据游戏和基础环境情况及时发现问题、优化技术架构,提升用户体验; 5. 参与前沿开源软件、虚拟化、数据库、WEB服务的深入研究,结合业务落地技术方案。
1、负责火山CDN运维架构的优化,包括基础运维架构、业务架构及容灾架构优化,从质量、成本及效率几个层面不断改进平台架构,提升产品竞争力; 2、负责火山CDN运维体系的建设及优化,包括运维规范、SLA及自动化运维平台的建设和优化; 3、负责火山CDN平台各组件的日常报警处理、线上变更及故障处理,保障线上服务稳定; 4、负责火山CDN大客户的线上需求对接,及时解决客户遇到的各种问题。

1.负责公司核心业务系统的各类线上资源维护、监控告警以及应急响应,保障各项服务7*24小时高效稳定运行 2.负责开发和维护自动化运维工具和平台,覆盖部署、监控、日志分析等全生命周期管理 3.负责容量规划、资源调度和混沌工程建设,确保各系统能够应对各类灾难和高并发流量 4.负责系统安全策略的实施与优化,构建零信任安全架构,确保操作审计高覆盖率 5.负责与开发团队紧密协作,推动DevOps文化和SRE理念,做好流程和规范建设,提升开发与运维的协作效率
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。