网易高级/资深系统运维工程师
任职要求
1、计算机相关专业本科及以上学历,3年以上Linux系统运维经验; 2、精通Python/Go/Shell/等至少一种主流编程语言,有良好的编程基础,能够开发自动化脚本; 3、具备良好的逻辑思维和Debug分析能力,能够快速定位和解决复杂系统问题; …
工作职责
1、负责支撑整个部门的产品运维工作,包括Linux操作系统及基础服务如Nginx、Kvm、DNS、DHCP、ES等日常管理和维护; 2、负责排查处理linux下的各类故障告警,进行相关系统调优, 持续完善监控告警体系; 3、参与自动化运维工具和平台开发,提升自动化程度,减少人为操作风险;通过工具和平台将运维能力赋能给外部其他团队,提高整体效率; 4、负责业务产品的服务器系统层架构设计,实施和维护高可用性、高性能系统架构,确保服务稳定性,将可靠性作为系统设计的核心目标 5、与开发、网络等其他团队紧密协作,提供所需系统层面技术支持和解决方案; 6、持续优化运维操作和流程,建立和维护完善的技术文档,构建团队知识库,促进经验共享和知识传承; 7、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量。
1、负责服务器系统安装和问题排障; 2、负责分析解决服务器运行中的各类硬件问题; 3、负责服务器状态监控和数据分析,及时发现并解决潜在问题; 4、负责服务器硬件的调研,测试,输出技术报告,持续跟进技术发展趋势; 5、协助服务器带外(Out-of-band)管理,开发自动化运维工具; 6、编写和维护知识库文档,跟踪、推进问题修复进展。
1.负责IDC机房的IT日常运维及服务管理工作,确保集团各业务在贵安机房业务连续稳定性,并达成SLA; 2.推动制度、流程在数据中心落地,提升团队效率和质量; 3.负责IT团队管理,包括引入、培训、评估、绩效管理等工作; 4.负责IT现场稳定性管理,识别风险事件并进行分析、改进提高数据中心稳定性,降低误操作事件发生; 5.负责参与数据中心服务器、网络设备部署、上架、布线及硬件资源规划; 6.负责制定流程规范、新设备SOP,并落实培训,提高IT工程师能力;

1、负责游戏/应用系统部署搭建、版本更新、系统监控、日常维护和故障应急响应; 2、根据业务重要等级,推动关键业务规避单点问题,并具有高可用、多机房容灾的能力; 3、推动及开发自动化运维、管理平台建设,提升运维工作效率; 4、参与系统架构的可运维性设计,管理完善监控报警平台,提升稳定性保障; 5、负责收集工作中的痛点和不足,总结经验,优化流程,持续提升运维的质量和效率。
1、主导公司核心IT基础设施资源(服务器、存储、网络、云资源、容器集群等)的统筹运维管理,搭建标准化、规范化运维体系,保障业务系统稳定运行及高可用性(目标SLA 99.9%以上); 2、牵头复杂及重大运维故障的应急响应、根因分析与复盘优化,输出可复用的故障解决方案,持续降低故障发生率及影响范围; 3、统筹IT资源容量规划与弹性扩缩容策略制定,精准预判业务资源需求,优化资源配置方案,提升资源利用率,实现运维成本精细化管控; 4、推进运维自动化与智能化建设,运用Shell/Python等脚本语言及主流运维工具(如Prometheus、Grafana、Ansible),实现部署、巡检、监控、告警等核心运维流程自动化,提升运维效能; 5、优化IT资源监控与告警体系,梳理核心监控指标、优化告警策略,实现异常行为早发现、早预警、早处置,缩短故障响应时间(MTTR)与恢复时间; 6、承担中初级运维工程师的技术指导与能力赋能,沉淀运维最佳实践,支撑业务系统高效上线与迭代升级。