阿里云诚云科技-资深服务器硬件运维保障工程师-CTO
任职要求
1、本科及以上学历,三年及以上工作经验,有互联网企业或者服务器制造商从事售后技术支持、硬件质量管理、DEVOPS、SRE、稳定性建设相关工作经验者优先; 2、扎实的服务器硬件(如CPU、内存、存储、RAID)的故障排…
工作职责
1、服务器全生命周期运维,确保运维交付质量和效率达成SLA; 2、服务器安全生产规范和平台建设,风险预防,应急和治理,保障和提升业务安全和可持续; 3、一般场景问题分析,方案制定以及解决;
1.负责海量服务器从上架到下线全生命周期运维体系规划和建设,主要包含OS装机、维保&维修、故障监控、新品导入适配(NPI)、硬件配置变更、远程管控、数据擦除安全,保障交付效率&质量符合相关SLA; 2.参与服务器安全生产规范和平台建设,风险应急和治理,保障和提升业务安全和可持续; 3.跟踪运维业界前沿技术和发展趋势,结合阿里云业务场景,推动相关技术落地和优化;
1. 网络运维与保障: - 负责网易IDC和办公网络设备(路由器、交换机、防火墙等)的日常监控、维护及故障处理,确保网络高可用性。 - 熟悉BGP、VxLAN、STP、等协议,能够快速定位并解决网络常见故障。 - 对服务器硬件及操作系统(Linux/Windows)有一定了解,协助处理服务器网卡异常、TCP/IP协议栈等关联问题。 2. 变更与流程管理: - 严格执行网络变更流程,遵守变更纪律,杜绝未经授权的操作。 - 负责割接、扩容等操作的执行与记录,确保变更操作零失误。 3. 应急响应与值班: - 7×24小时轮班值守,对突发的网络中断、DDoS攻击、紧急变更等事件进行快速响应。 - 编写故障分析报告,推动根因分析与改进措施落地。 4. 文档与自动化: - 维护网络拓扑图、设备配置文档及应急预案,推动运维脚本(Python/Ansible)开发,提升故障处理效率。 - 定期更新相关技术文档,以便于团队成员的参考和使用。
1、参与滴滴服务器运维体系的设计和研发,建设服务器基础服务变更体系,提升运维管理效率并保证变更安全性; 2、参与服务器运维平台、监控平台等系统的设计和研发,保障线上服务器稳定运行; 3、参与堡垒机、NTP、装机、YUM源等数据中心基础服务的研发和运维,提升服务性能,保障服务稳定性。
