阿里云诚云科技-资深应用运维工程师-开源大数据平台
任职要求
1、有K8S/主流开源大数据大数据引擎(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)的运维经验,熟悉分布式系统原理及Linux原理 2、熟悉Golang/Python/Java至少一门编程语言…
工作职责
1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
ꔷ 主导疑难问题工单的分析与解决,保障客户核心业务稳定运行; ꔷ 参与客户业务重保(Critical Support)方案设计与执行,提升客户满意度。 用户体验优化与产品改进 ꔷ 从工单中定位产品缺陷,提炼用户需求,提出优化建议; ꔷ 推动产品质量与功能迭代,通过技术改进提升用户体验。 运维平台智能化建设 ꔷ 参与大数据运维平台的产品化及智能化升级,主导售后工具、运维平台的开发与优化; ꔷ 基于历史工单数据、开源社区知识库,结合 MCP、RAG 等大模型技术,构建智能运维体系,提升售后响应效率与问题解决能力。 运维服务体系建设 ꔷ 负责运维服务体系的规划与落地,包括团队生态人员招聘、技能培养及知识沉淀; ꔷ 制定运维能力提升计划,确保团队高效支持复杂场景
1. 负责为美团金服销售业务建设稳定高可用的系统,能支撑业务快速变化,业务量高速增长;(业务支撑) 2. 面对信贷账户的业务规模,从整体上规划系统的容量、稳定性,制定有效的技术解决方案和迭代计划,持续提升系统的高并发、高可用、扩展性、资金安全处理能力; 3. 主动发现和分析产品存在的用户痛点和技术问题,提出全链路可行的改进方案,并能推动业务、产品、研发多方合作落地实施; 4. 指导初级工程师,提高团队技术能力及战斗力;
1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;