阿里云诚云科技-资深应用运维工程师-通义实验室

社招全职3年以上诚云科技2025-11-24地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、本科以上计算机及相关专业；
2、有三年以上的SRE/Devops经验，有大型互联网公司运维经验者优先；
3、熟悉阿里云公有云服务，具备公有云基础运维经验（如VPC、ECS、SLB、RDS等）；
4、熟练掌握Kubernetes与Docker架构及技术原理，有大规模生产集群的部署、调优及故障解决经验；
5、至少掌握Python/Go/Shell任意一门语言，有运维工具开发经验者…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、稳定性保障与体系建设：负责大模型相关核心业务系统的稳定性建设工作，提升业务可用性与可靠性。
 2、高并发流量治理：高并发场景下的流量治理方案设计与实施，包括熔断、限流、降级等容灾策略，确保业务弹性与鲁棒性。
3、运维流程优化和自动化：推动运维自动化与平台化建设，提升研发效率。
4、架构高可用建设：业务系统稳定性架构方案的设计与实施，推动高可用架构落地，规避系统性风险。
5、应急响应：负责快速定位并解决生产环境故障，建立故障快速恢复机制，推动长效改进措施落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

Docker+

Python+

Go+

还有更多 •••

登录查看完整学习资料

相关职位

诚云科技-资深应用运维工程师-计算平台

社招3年以上诚云科技

ꔷ 主导疑难问题工单的分析与解决，保障客户核心业务稳定运行； ꔷ 参与客户业务重保（Critical Support）方案设计与执行，提升客户满意度。用户体验优化与产品改进 ꔷ 从工单中定位产品缺陷，提炼用户需求，提出优化建议； ꔷ 推动产品质量与功能迭代，通过技术改进提升用户体验。运维平台智能化建设 ꔷ 参与大数据运维平台的产品化及智能化升级，主导售后工具、运维平台的开发与优化； ꔷ 基于历史工单数据、开源社区知识库，结合 MCP、RAG 等大模型技术，构建智能运维体系，提升售后响应效率与问题解决能力。运维服务体系建设 ꔷ 负责运维服务体系的规划与落地，包括团队生态人员招聘、技能培养及知识沉淀； ꔷ 制定运维能力提升计划，确保团队高效支持复杂场景

更新于 2025-08-04西安|北京|杭州

诚云科技-资深应用运维工程师-开源大数据平台

社招3年以上诚云科技

1、负责阿里云开源大数据平台（Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S）运维工作，包括可观测性链路、监控报警，故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台，通过自动化提升运维效率，包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维，通过AI算法提升稳定性，包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地，包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-09-25北京|杭州

诚云科技-资深应用运维工程师-计算平台

社招3年以上诚云科技

1、负责阿里云AI人工智能平台（PAI）运维工作，建设超大规模GPU集群稳定性体系，包括可观测性链路、监控报警，故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台，通过自动化提升运维效率，包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维，通过AI算法提升稳定性，包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地，包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等

更新于 2025-10-12北京|杭州

诚云科技-资深应用运维工程师-计算平台-（PAI）

社招5年以上诚云科技

更新于 2025-09-30北京|杭州