阿里云诚云科技-高级运维工程师-一朵云
任职要求
1、拥有2年以上大型云服务提供商(如阿里云、腾讯云、AWS、Azure等)运维或技术支持相关工作经验,具备大规模分布式系统运维实战背景; 2、熟练掌握主流云产品技术栈,精通ECS、SLB、VPC、RDS、Redis、消息中间件等云组件的深度配置、性能调优与故障排查; 3、具备运维工具开发能力,能使用Python/Shell/Go等语言开发自动化运维脚本或平台,提升运维效率与标准化水平; 4、拥有出色的集群调优与Troubleshooting能力,能够独立分析和解决复杂技术问题,具备完整的问题定位、根因分析与复盘文档撰写能力; 5、熟悉分布式系统架构原理,掌握微服务、容器化(Kubernetes/Docker)、CI/CD等技术体系; 6、具备云安全规划与实施经验,熟悉常见安全风险(如DDoS、注入攻击、权限越权等),能制定有效的安全策略并推动落地; 7、具备良好的项目管理与跨团队协作能力,在专项推进、故障应急、客户护航等场景中,能高效协调客户、研发、网络、安全等多方资源,保障执行效果; 8、逻辑清晰,责任心强,具备优秀的沟通表达能力与抗压能力,能够在高强度环境下保持高效输出。
工作职责
1. 负责企业级云平台核心系统的日常运维管理,保障平台7×24小时高可用性与稳定运行。 2. 主导云平台的版本升级、补丁管理、变更实施及回滚方案设计,确保变更过程安全可控。 3. 开展系统容量规划与性能优化,预测资源需求,支撑业务持续增长与弹性扩展。 4. 攻坚解决云平台重大疑难故障和技术问题,持续提升系统稳定性和服务可靠性。 5. 深度参与云平台整体安全体系的规划与建设,识别各业务场景下的潜在安全风险。 6. 设计并实施安全边界策略、访问控制机制和最小权限模型,强化系统安全防护能力。 7. 构建主动式安全防御体系,涵盖漏洞管理、入侵检测、威胁情报与安全审计等关键环节。 8. 通过自主研发或集成安全工具链,实现数据安全、访问行为、异常操作的自动化监控与响应。 9. 在重大故障应急响应、安全事件处置及客户关键活动护航中担任技术主导角色。 10. 高效组织协调内外部技术资源,快速定位问题并推动闭环处理,保障业务连续性与客户满意度。
1. 负责政务云安全运营工作,确保政务云平台安全稳定运行,对平台侧安全结果负责; 2. 负责政务云平台的安全策略制定与实施,确保政务数据的安全性、完整性和可用性; 3. 负责政务云平台网络及应用安全事件的风险预警、溯源、协同、跟踪、改进优化及事后评估; 4. 负责安全应急响应流程的设计与优化,在发生安全事件时能够快速响应并采取有效措施消除风险; 5. 负责应用安全管控和审计体系建设,包括应用安全产品规划立项、产品部署、使用改进、策略优化等,也包括与周边云产品配合达到行之有效的管控和审计效果; 6. 负责政务云平台及应用相关的漏洞扫描、安全渗透、黑白盒测试,并协助跟进风险闭环; 7. 负责团队内部安全体系建设与运营,提升团队整体安全意识和技术水平。
运维研发工程师(SRE)是指用软件工程的方法来管理系统、解决问题并实现运维自动化,以减少琐事,提高服务的可用性。 包括但不限于如下工作内容: 1. 负责网易互娱业务的运维工作,如蛋仔派对、第五人格、UU加速器、一梦江湖、王牌竞速等在线业务,以及公司内部在研项目。; 2. 根据不同游戏的服务架构、性能需求以及业务情况,为游戏服务端设计选用基础运行环境(包括服务器、虚拟化、云服务、网络、数据库等),为游戏提供可控成本下高质、高效的运维服务; 3. 建立与监控各类运维指标,定制数据分析标准; 4. 联合产品部门,根据游戏和基础环境情况及时发现问题、优化技术架构,提升用户体验; 5. 参与前沿开源软件、虚拟化、数据库、WEB服务的深入研究,结合业务落地技术方案。
1、负责IT相关应用的运维工作,如监控系统、负载均衡、radius、办公网CDN、办公网DNS、vmware集群等 2、负责业务系统的运维,如财务系统、税务系统、行政系统等业务系统 3、负责系统日常变更,故障排查,性能优化,日常值守 4、负责集团重要活动的内部保障工作 5、负责梳理运维团队的SOP 6、负责运维侧CMDB、ITSM的需求管理并对接内部研发