网易网络运维(NOC)主管
任职要求
1、教育背景 计算机科学、通信工程、信息技术或相关专业学士及以上学位。 2、工作经验 至少10年以上网络运维相关工作经验,5年以上网络运维管理经验。 具备丰富的网络架构设计、设备配置和故障排除经验。 熟悉IDC网络和企业IT网络的建设与运维,具备大规模网络环境的管理经验。 3、技术能力 精通网络协议(如TCP/IP、HTTP、HTTPS、BGP、OSPF等)和网络架构(如Clos架构、ECMP、VxLAN、SDN等)。 熟悉主流网络设备(如Cisco、Huawei、H3C、Juniper等)的…
工作职责
1、团队管理 管理并协调正式员工和外包团队,确保团队成员在网络运维方面的高效协作和责任分工。 组织团队培训,提升成员的技术能力和应急处理水平,确保团队具备处理复杂网络问题的能力。 监控团队的工作效率和服务质量,定期评估团队成员的绩效,提出改进建议。 2、网络运维管理 全面负责IDC网络和IT办公网络的日常运维工作,包括网络设备(如路由器、交换机、防火墙等)的监控、配置和维护。 通过监控工具实时跟踪网络设备的健康状态,及时发现并解决潜在问题,确保网络的高可用性和稳定性。 制定网络设备的维护计划,包括固件升级、配置备份、日志管理等,确保设备处于最佳状态。 3、故障与事件应急响应 制定并执行网络故障和事件的应急响应计划,确保在发生故障时能够快速定位问题并修复。 对网络中断事件进行根因分析(RCA),提出预防措施,避免类似问题再次发生。 与其他团队(如开发、安全、IT支持等)协作,确保跨部门问题的快速解决。 4、网络变更与维护 组织和实施网络设备的变更和升级,确保变更过程中的网络服务不中断或影响最小化。 审批和执行网络变更请求,确保所有变更符合公司规范和流程。 5、网络性能优化 分析网络性能瓶颈,提出优化方案,提升网络的吞吐量和响应速度。 监控网络流量,识别异常流量,防止网络拥塞或安全威胁。 6、文档与流程管理 维护网络设备的文档,包括网络拓扑图、设备清单、配置文件等,确保信息的准确性和及时更新。 制定和优化网络运维相关的制度、流程和规范,确保团队工作的标准化和规范化。 7、应急管理与沟通 在网络故障或重大事件中,作为主要的沟通和决策点,向公司管理层和相关部门汇报进展和影响。 组织网络事件的后续总结会议,输出改进方案和经验教训。 8、团队发展与文化建设 推动团队文化建设,增强团队凝聚力和责任感。 鼓励团队成员参与行业交流和技术学习,提升团队整体技术水平和行业影响力。
1. 网络运维与保障: - 负责网易IDC和办公网络设备(路由器、交换机、防火墙等)的日常监控、维护及故障处理,确保网络高可用性。 - 熟悉BGP、VxLAN、STP、等协议,能够快速定位并解决网络常见故障。 - 对服务器硬件及操作系统(Linux/Windows)有一定了解,协助处理服务器网卡异常、TCP/IP协议栈等关联问题。 2. 变更与流程管理: - 严格执行网络变更流程,遵守变更纪律,杜绝未经授权的操作。 - 负责割接、扩容等操作的执行与记录,确保变更操作零失误。 3. 应急响应与值班: - 7×24小时轮班值守,对突发的网络中断、DDoS攻击、紧急变更等事件进行快速响应。 - 编写故障分析报告,推动根因分析与改进措施落地。 4. 文档与自动化: - 维护网络拓扑图、设备配置文档及应急预案,推动运维脚本(Python/Ansible)开发,提升故障处理效率。 - 定期更新相关技术文档,以便于团队成员的参考和使用。
1. 7×24 监控值守,实时监控网络设备(路由器、交换机、防火墙)、链路质量(延迟、丢包、BGP 状态)及云网络服务(VPC、SLB、NAT); 2. 故障应急响应:快速定位并协同处理网络中断、DDoS 攻击、路由震荡等 P0/P1 级事件; 3. 变更管理:执行标准化网络变更(如 ACL 更新、BGP 调整),遵循变更窗口与回滚预案; 4. 自动化运维:使用 Python/Go 编写脚本,实现配置备份、健康检查、告警降噪等自动化任务; 5. 容量规划:分析流量趋势,参与带宽扩容、CDN 节点部署等容量决策; 6. 文档沉淀:维护网络拓扑图、应急预案、Runbook,推动知识共享; 7. 跨团队协作:与 SRE、安全、研发团队紧密配合,优化端到端用户体验。
1.负责腾讯基础架构网络日常运营工作,包括用户报障、应急响应、突发故障处理,保障公司基础网络稳定运营; 2.负责腾讯基础架构网络告警监控管理,制定并优化告警监控策略,使用自动化手段落地,实时监控网络运行状态; 3.负责为一线运维人员提供技术支持,提升一线运维能力,保障专业化服务水平; 4.参与网络运营体系、流程的建设和优化,推动完善NOC网络运维管理规范,保障运维质量; 5.参与网络自动化、智能化运维能力建设,提升网络运营质量和效率。
岗位描述 规划、组织和管理IT相关系统的运维工作,参与IT体系中运维相关部分建设。满足操作工具化、管理自动化、服务平台化的长期建设需求。在包括运维自动化技术,监控技术,网络技术等方向,针对内部应用与基础设施服务,提供承上启下的专业支持服务。并通过与统一的后台服务管理团队的配合与衔接,来确保组织基础设施体系的日常稳定。 业务职责: 1. 组织,定义及实施IT相关业务的系统运维日常工作,设计并推进相关业务的技术迭代与业务演进。为公司内部应用提供体系化的统一应用运维和支持服务; 2. 建设业务系统运维相关能力,为IT业务相关的后台系统提供持续的高可用性服务与自动化业务管理工具; 3. 建设日常服务相关的快速响应能力,对相关业务团队提供快速响应业务需求的工具,服务及相关制度建设; 4. 在系统故障管理场景中,能作为 NOC 中的关键节点承担系统故障管理职责;