logo of aliyun

阿里云阿里云智能-稳定性SRE(AI & 云方向)-杭州/北京

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 5年以上云计算/2年以上AI相关工作经验,具备某一大产品领域知识(基础设施,数据域,云原生)+AI领域知识,经历过大型互联网系统的保障建设以及AI系统建设
2. 对云计算SRE有丰富的实战经验,如系统的高可用性架构实现、稳定性保障和提升,预案/演练/保障,协助业务开发团队实现系统的端到端可靠性。
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 深入了解百炼整体技术架构和调用链路,协助百炼产品团队完善基础设施管理,含CMDB构建,资源管理,账号管理等。
2. 深入了解百炼依赖的核心云产品组件,提供核心云产品在资源层面以及业务层面的保障支持, 含最佳实践、风险治理(监控,巡检、风险管理)、容量管理,业务优化,变更管理以及重保等支持。
3. 从稳定性角度出发,通过故障治理,抽象百炼共性问题和核心风险,形成解决方案并通过联合专项的方式推动落地,含弹性扩容优化、限流降级、隔离,可观测性等能力提升等,提升百炼全链路稳定性。
4. 为千问,钉钉,QTeam等提供SRE支持,提升用云,用AI稳定性和体验。
包括英文材料
高可用+
相关职位

logo of bytedance
社招3年以上A198390

1、全面提升国际支付稳定性与MTTR,持续优化国际支付业务与技术体系的质量、成本和效率水平; 2、负责规划、建设并落地国际支付业务运维保障方案,针对海外支付场景提升故障发现、应急响应和止损能力; 3、参与SRE AI agent的建设,结合国际支付技术风险和SRE专业实践,提升SRE和国际支付技术团队效率和质量。

更新于 2023-11-24深圳
logo of bytedance
社招3年以上A113037

1、全面提升国际支付稳定性与MTTR,持续优化国际支付业务与技术体系的质量、成本和效率水平; 2、负责规划、建设并落地国际支付业务运维保障方案,针对海外支付场景提升故障发现、应急响应和止损能力; 3、参与SRE AI agent的建设,结合国际支付技术风险和SRE专业实践,提升SRE和国际支付技术团队效率和质量。

更新于 2023-11-24杭州
logo of bytedance
社招5年以上A79398

1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。

更新于 2025-05-20杭州
logo of bytedance
社招5年以上A118276A

1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。

更新于 2025-04-22上海