阿里云阿里云智能-高级安全工程师-云威胁分析与响应方向(DDR)
任职要求
1. 具备阿里云数据类产品的安全威胁建模经验和能力,能够独立完成云产品的安全威胁建模,发现安全隐患,设计安全的云产品安全能力并推进落地 2. 熟悉云环境下主流的安全攻防态势,对云平台的攻防有实际领域经验,具备多领域的安全攻防技术知识,如主机、Web、容器安全、云数据库等场景 3. 具备丰富的跨团队协作经验和能力,能够支持产品设计和研发团队充分理解云上数据安全风险、并推动安全治理和安全能力提升 4. 有将AI大模型能力应用于优化、提效安全运营流程的实际经验 5. 熟练掌握至少一种主流编程语言编写(Java、Python、Golang、C/C++、Rust、Shell等),能利用代码解决安全工作中的问题 加分项 1. 具备云厂商、大型企业、云原生业务SDL落地经验 2. 具备安全攻防或红蓝对抗经验;发现过开源系统高危漏洞 3. 有在安全竞赛经验、安全会议成果
工作职责
1. 负责设计提升覆盖云原生环境的DDR安全检测能力,构建和优化高级威胁检测模型,在海量日志和数据活动中精准识别异常行为和潜在威胁。 2. 负责数据库SQL审计、数据安全中心等安全产品核心DDR安全能力,通过AI赋能产品,进行相关安全架构设计、评估与实现、推动安全技术架构解决方案落地。 3. 设计和推动客户侧云安全事件的产品应急响应流程,包括事件研判、攻击溯源、风险评估和响应闭环处置。 4. 评估、测试业界前沿的DDR技术和解决方案,持续提升团队的威胁检测与响应能力。
1、负责AI基础设施入侵防御体系的设计和实施,包括但不限于在计算/网络/应用层的云威胁、大模型或生态工具投毒、密钥泄露等场景的防御规则与入侵检测策略开发; 2、主动发现针对AI业务的新型攻击手法和绕过技术,设计开发和维护相应的检测规则、策略及威胁情报知识库,融入到云产品业务和云平台基础设施,提升整体云安全防护能力; 3、负责云平台安全告警/风险运营,云安全事件的响应调查和处置,推动云平台止血和溯源能力体系化建设,建设有效监控能力防范规模性安全事件/平台系统性风险的发生。
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1.负责分析日常运营发现的可疑文件/恶意样本,协助应急响应,输出准确的分析报告,确保及时发现、清除潜在威胁; 2.完成威胁狩猎工作,包括对相关黑灰产团伙、勒索团伙、APT组织的活动的长期追踪; 3.完成攻击团伙TTPs归因分析,针对相应的安全产品提出针对性的防御检测措施,进一步提升组织的安全防御&检测能力; 4.针对现有产品无法覆盖的ttps,开发针对性的检测组件/规则,补齐产品检测的短板。