logo of aliyun

阿里云诚云科技-资深应用运维工程师-计算平台

社招全职3年以上诚云科技地点:西安 | 北京 | 杭州状态:招聘

任职要求


1、3年以上大数据相关(Hadoop/Spark/Flink/OLAP)开发/运维经验,有较强的事故分析和故障排除能力,能够独立结合metric及日志分析处理多组件关联的较复杂问题;熟悉Hadoop源码尤佳
2、具备产品和服务改进意识,能有效识别产品问题或挖掘产品优化,推动产品改进提升用户体验;
3、具备运维平台和诊断工具开发能力(shellpythonjava等编程语言不限),能够通过工具建设提升售后效率;
4、曾在云计算厂商行业的技术支持、运维服务、后台技术型产品支撑经历者优先, 具备方案沉淀能力,能主导完成标准化方案和文档沉淀;
5、有Spark计算引擎的开发经历或OLAPStarRocksClickHouse等至少一种)使用经历优先,有带团队管理经验优先。

工作职责


ꔷ 主导疑难问题工单的分析与解决,保障客户核心业务稳定运行;
ꔷ 参与客户业务重保(Critical Support)方案设计与执行,提升客户满意度。
用户体验优化与产品改进
ꔷ 从工单中定位产品缺陷,提炼用户需求,提出优化建议;
ꔷ 推动产品质量与功能迭代,通过技术改进提升用户体验。
运维平台智能化建设
ꔷ 参与大数据运维平台的产品化及智能化升级,主导售后工具、运维平台的开发与优化;
ꔷ 基于历史工单数据、开源社区知识库,结合 MCP、RAG 等大模型技术,构建智能运维体系,提升售后响应效率与问题解决能力。
运维服务体系建设
ꔷ 负责运维服务体系的规划与落地,包括团队生态人员招聘、技能培养及知识沉淀;
ꔷ 制定运维能力提升计划,确保团队高效支持复杂场景
包括英文材料
大数据+
Hadoop+
Spark+
OLAP+
Bash+
Python+
Java+
StarRocks+
ClickHouse+
相关职位

logo of aliyun
社招3年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12
logo of aliyun
社招3年以上诚云科技

1、负责阿里云大数据产品,Maxcompute、Hologres、DataWorks等产品运维工作,包括服务稳定性体系建设、资源成本优化与运维效率提升等工作内容; 2、负责大数据运维平台ABM里对应产品运维功能的设计和开发,在运维中台能力之上,用软件工程和AI技术提升运维质量及效率; 3、负责重大技术项目的组织、方案制定及整体协调,如架构改进、大促重保等,保障项目的有效落地并获得技术和业务上的收益价值。

更新于 2025-10-17
logo of aliyun
社招5年以上诚云科技

1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-30
logo of aliyun
社招3年以上诚云科技

1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。

更新于 2025-09-01