阿里云诚云科技-资深服务器硬件运维保障工程师-蚂蚁项目
任职要求
职位要求: 1.通讯、计算机、电子工程相关专业,有扎实的计算机底层硬件基础知识; 2.三年以上10k+服务器量级SRE经验,有丰富的运维架构,DEVOPS经验,熟练掌握Linux/UNIX、SHELL、PYT…
工作职责
1.负责海量服务器从上架到下线全生命周期运维体系规划和建设,主要包含OS装机、维保&维修、故障监控、新品导入适配(NPI)、硬件配置变更、远程管控、数据擦除安全,保障交付效率&质量符合相关SLA; 2.参与服务器安全生产规范和平台建设,风险应急和治理,保障和提升业务安全和可持续; 3.跟踪运维业界前沿技术和发展趋势,结合阿里云业务场景,推动相关技术落地和优化;
1、服务器全生命周期运维,确保运维交付质量和效率达成SLA; 2、服务器安全生产规范和平台建设,风险预防,应急和治理,保障和提升业务安全和可持续; 3、一般场景问题分析,方案制定以及解决;
1. 网络运维与保障: - 负责网易IDC和办公网络设备(路由器、交换机、防火墙等)的日常监控、维护及故障处理,确保网络高可用性。 - 熟悉BGP、VxLAN、STP、等协议,能够快速定位并解决网络常见故障。 - 对服务器硬件及操作系统(Linux/Windows)有一定了解,协助处理服务器网卡异常、TCP/IP协议栈等关联问题。 2. 变更与流程管理: - 严格执行网络变更流程,遵守变更纪律,杜绝未经授权的操作。 - 负责割接、扩容等操作的执行与记录,确保变更操作零失误。 3. 应急响应与值班: - 7×24小时轮班值守,对突发的网络中断、DDoS攻击、紧急变更等事件进行快速响应。 - 编写故障分析报告,推动根因分析与改进措施落地。 4. 文档与自动化: - 维护网络拓扑图、设备配置文档及应急预案,推动运维脚本(Python/Ansible)开发,提升故障处理效率。 - 定期更新相关技术文档,以便于团队成员的参考和使用。

1.负责公司线上及线下基础设施相关运维,提升系统稳定性和运维效率; 2.公有云/IDC资源相关需求受理及交付管理,负责各业务中短期和特殊资源需求的接收、分析、规划匹配、建设、交付跟进; 3.负责服务器、存储、基础服务等Iaas/Paas层技术评估、监控、调优、诊断及软硬件优化和故障定位分析; 4.评估硬件功能方案、基于新产品的运维场景下、完善各个过程的新产品适配可用维保障; 5.负责设备生命周期自运营维护; 6.完善运维过程的硬件/系统的技术方案输出和标准化