阿里云诚云科技-资深应用运维工程师-开源大数据平台
任职要求
1、有K8S/主流开源大数据大数据引擎(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)的运维经验,熟悉分布式系统原理及Linux原理 2、熟悉Golang/Python/Java至少一门编程语言…
工作职责
1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
ꔷ 主导疑难问题工单的分析与解决,保障客户核心业务稳定运行; ꔷ 参与客户业务重保(Critical Support)方案设计与执行,提升客户满意度。 用户体验优化与产品改进 ꔷ 从工单中定位产品缺陷,提炼用户需求,提出优化建议; ꔷ 推动产品质量与功能迭代,通过技术改进提升用户体验。 运维平台智能化建设 ꔷ 参与大数据运维平台的产品化及智能化升级,主导售后工具、运维平台的开发与优化; ꔷ 基于历史工单数据、开源社区知识库,结合 MCP、RAG 等大模型技术,构建智能运维体系,提升售后响应效率与问题解决能力。 运维服务体系建设 ꔷ 负责运维服务体系的规划与落地,包括团队生态人员招聘、技能培养及知识沉淀; ꔷ 制定运维能力提升计划,确保团队高效支持复杂场景
1. 负责为美团金服销售业务建设稳定高可用的系统,能支撑业务快速变化,业务量高速增长;(业务支撑) 2. 面对信贷账户的业务规模,从整体上规划系统的容量、稳定性,制定有效的技术解决方案和迭代计划,持续提升系统的高并发、高可用、扩展性、资金安全处理能力; 3. 主动发现和分析产品存在的用户痛点和技术问题,提出全链路可行的改进方案,并能推动业务、产品、研发多方合作落地实施; 4. 指导初级工程师,提高团队技术能力及战斗力;
1、负责AI技术深度应用软件测试或者系统稳定性测试,包括性能测试、压力测试、容灾演练等; 2、AI驱动的测试全流程优化,运用AI技术重构测试需求分析、用例设计、自动化、执行监控、缺陷预测及结果分析等环节,开发基于AI的自动化测试框架与工具,实现测试脚本智能生成、测试用例自适应推荐、异常场景自动挖掘等能力,探索大语言模型(LLM)在测试领域的应用,例如需求解析、测试数据生成、日志分析等场景; 3、自动化测试体系构建,设计并落地高可用、可扩展的自动化测试框架,整合AI能力提升测试覆盖率和执行效率,主导复杂系统的自动化测试策略,解决稳定性、数据构造等难点问题; 4、稳定性保障,负责系统稳定性测试,包括性能测试、压力测试、容灾演练等,确保系统在高并发、异常场景下的稳定性,设计并实施稳定性测试方案,识别系统瓶颈和潜在风险,推动研发团队优化系统架构,监控生产环境稳定性,分析故障根因,制定并落地改进措施; 5、技术探索与创新,跟踪AI测试领域前沿技术(如AI模糊测试、智能监控、自动化修复),推动技术预研与落地,通过数据建模与分析,构建测试质量评估体系,量化AI提效成果并持续优化; 6、团队赋能与协作,与研发、运维、产品等团队紧密合作,推动质量保障工作的落地和优化,沉淀AI测试方法论,通过技术分享、工具推广提升团队整体技术水平。