阿里云诚云科技-资深应用运维工程师-计算平台(大数据方向)
任职要求
1、计算机或相关专业,3-5年及以上行业内的技术岗位和系统架构经验,熟悉大数据AI平台架构和技术体系者优先; 2、具备大型分布式系统的开发/运维、大型系统运维管控平台的开发/设计背景; 3、精通Linux系统,具备系统级问题troubleshooting 和 performance tuning能力者优先; 4、具备云原生技术能力和大规模云原生生产保障经验优先; 5、具有扎实的编程基础,熟练使用至少一门主流语言:Python/Go/Java,熟悉常见的python/java后台开发框架优先;
工作职责
1、负责阿里云大数据产品,Maxcompute、Hologres、DataWorks等产品运维工作,包括服务稳定性体系建设、资源成本优化与运维效率提升等工作内容; 2、负责大数据运维平台ABM里对应产品运维功能的设计和开发,在运维中台能力之上,用软件工程和AI技术提升运维质量及效率; 3、负责重大技术项目的组织、方案制定及整体协调,如架构改进、大促重保等,保障项目的有效落地并获得技术和业务上的收益价值。
ꔷ 主导疑难问题工单的分析与解决,保障客户核心业务稳定运行; ꔷ 参与客户业务重保(Critical Support)方案设计与执行,提升客户满意度。 用户体验优化与产品改进 ꔷ 从工单中定位产品缺陷,提炼用户需求,提出优化建议; ꔷ 推动产品质量与功能迭代,通过技术改进提升用户体验。 运维平台智能化建设 ꔷ 参与大数据运维平台的产品化及智能化升级,主导售后工具、运维平台的开发与优化; ꔷ 基于历史工单数据、开源社区知识库,结合 MCP、RAG 等大模型技术,构建智能运维体系,提升售后响应效率与问题解决能力。 运维服务体系建设 ꔷ 负责运维服务体系的规划与落地,包括团队生态人员招聘、技能培养及知识沉淀; ꔷ 制定运维能力提升计划,确保团队高效支持复杂场景
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

1. 安全监控与事件管理 负责7x24小时安全监控体系的运营与管理,覆盖云平台(AWS、Azure等)、SaaS应用等 精通并主导使用SIEM工具(如Splunk、Prisma Cloud)进行高级威胁狩猎、异常检测和告警优化,确保安全事件的全链路可视性。 具备SOAR平台(如Cortex XSOAR等)的实际操作经验,能够进行剧本开发、案例管理或平台运维 领导并协调针对复杂安全事件的应急响应,包括但不限于入侵分析、恶意软件处理、账户盗用等,并负责根因分析、遏制、 eradication 和恢复。 2. 安全工程与自动化 设计、开发和维护安全自动化脚本与工作流(利用AWS Lambda, CloudWatch, Python等),以实现安全流程的标准化与效率提升,覆盖检测、响应与修复环节。 负责评估、集成与优化安全工具与技术栈(如EDR、IDS/IPS、Capsule8规则、CloudProber、Grafana仪表板等),提升安全控制的效能。 3. 威胁情报与漏洞管理 主动跟踪、分析和评估新兴的网络威胁、攻击手法和漏洞(如0-day),并转化为可行动的情报与防护措施。 主导或深度参与漏洞管理全生命周期,包括扫描、评估、优先级划分及推动修复。 4. 合规、协作与知识传承 确保安全运维实践符合内外部合规要求与标准(如ISO 27001、SOC2、GxP、PCI-DSS等),并参与相关审计工作。 与云安全、DevOps及研发团队紧密协作,将安全控制(如安全基线、漏洞防护)无缝集成到CI/CD pipeline和云基础设施中,推动“安全左移”。 编写高质量的技术文档、事件事后分析报告,并向管理层汇报安全态势与风险。 担任团队内的技术导师,培养L1/L2工程师,分享专业知识与最佳实践。