阿里云诚云科技-资深运维工程师-云平台运维与交付
任职要求
• 在中型企业或云服务提供商从事SRE、运维工具开发、客户技术服务相关工作,具备3年及以上工作经验
• 熟悉云集群各运维平台和云产品及监控平台使用方法,能够快速专业定位客户问题
• 具备一定集群调优和trouble shooting能力
• 或者掌握分布式系统原理,对存储、计算、流式计算中的一项或多项有深…工作职责
客户现场专项技术负责人 如网络专项、数据库专项 平台稳定性重大变更方案制定与实施 如性能/存储优化、底座改造等 现场故障应急执行 协助原厂尽快恢复平台运行 关键时刻现场保障 如客户平台隐患深度排查与治理,复杂问题原因定位及解决;

1. 安全监控与事件管理 负责7x24小时安全监控体系的运营与管理,覆盖云平台(AWS、Azure等)、SaaS应用等 精通并主导使用SIEM工具(如Splunk、Prisma Cloud)进行高级威胁狩猎、异常检测和告警优化,确保安全事件的全链路可视性。 具备SOAR平台(如Cortex XSOAR等)的实际操作经验,能够进行剧本开发、案例管理或平台运维 领导并协调针对复杂安全事件的应急响应,包括但不限于入侵分析、恶意软件处理、账户盗用等,并负责根因分析、遏制、 eradication 和恢复。 2. 安全工程与自动化 设计、开发和维护安全自动化脚本与工作流(利用AWS Lambda, CloudWatch, Python等),以实现安全流程的标准化与效率提升,覆盖检测、响应与修复环节。 负责评估、集成与优化安全工具与技术栈(如EDR、IDS/IPS、Capsule8规则、CloudProber、Grafana仪表板等),提升安全控制的效能。 3. 威胁情报与漏洞管理 主动跟踪、分析和评估新兴的网络威胁、攻击手法和漏洞(如0-day),并转化为可行动的情报与防护措施。 主导或深度参与漏洞管理全生命周期,包括扫描、评估、优先级划分及推动修复。 4. 合规、协作与知识传承 确保安全运维实践符合内外部合规要求与标准(如ISO 27001、SOC2、GxP、PCI-DSS等),并参与相关审计工作。 与云安全、DevOps及研发团队紧密协作,将安全控制(如安全基线、漏洞防护)无缝集成到CI/CD pipeline和云基础设施中,推动“安全左移”。 编写高质量的技术文档、事件事后分析报告,并向管理层汇报安全态势与风险。 担任团队内的技术导师,培养L1/L2工程师,分享专业知识与最佳实践。
1. 负责政务云安全运营工作,确保政务云平台安全稳定运行,对平台侧安全结果负责; 2. 负责政务云平台的安全策略制定与实施,确保政务数据的安全性、完整性和可用性; 3. 负责政务云平台网络及应用安全事件的风险预警、溯源、协同、跟踪、改进优化及事后评估; 4. 负责安全应急响应流程的设计与优化,在发生安全事件时能够快速响应并采取有效措施消除风险; 5. 负责应用安全管控和审计体系建设,包括应用安全产品规划立项、产品部署、使用改进、策略优化等,也包括与周边云产品配合达到行之有效的管控和审计效果; 6. 负责政务云平台及应用相关的漏洞扫描、安全渗透、黑白盒测试,并协助跟进风险闭环; 7. 负责团队内部安全体系建设与运营,提升团队整体安全意识和技术水平。

职责描述 1、构建高效的自动化运维与DevOps平台,优化CICD流程,保障大数据任务的快速迭代和稳定交付,提升整体运维自动化水平; 2、设计并开发自动化运维平台,覆盖云资源管理、Kubernetes集群运维、CICD流程及弹性伸缩; 3、构建统一的 DevOps 工具链,提升研发与交付效率; 4、运维流程优化 开发基于GitOps的自动化配置管理与应用交付流程; 集成Terraform、Ansible等工具,构建自动化云资源管理能力; 5、CICD Pipeline管理 优化现有CICD管道,支持高并发、大规模镜像构建与分发; 实现容器镜像的安全扫描、加密和签名验证; 6、数据驱动的运维改进 通过收集和分析平台数据,挖掘运维中的优化点,并推动运维效率提升; 构建自动化报告与报警系统,快速定位并解决系统问题;
