logo of aliyun

阿里云阿里云智能-管控系统SRE研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 5 年及以上大型互联网/云计算/分布式系统相关研发或运维工程化经验;
• 深刻理解分布式系统高可用设计:限流/熔断/隔离/降级/重试/幂等/一致性模型(最终一致、事务补偿)、多副本与复制协议基础;
• 精通一到两门后端/脚本语言(Java/Python/Go/Shell),具备工程化与代码可维护性意识(模块化、可测试性、性能剖析);
• 有容量规划、性能基准测试、压力预测与成本优化(FinOps 思维)实践;
• 良好的数据分析能力:能够用 SQL/Python/R 分析指标与日志,构建可视化报告驱动决策;
• 良好的文档能力与知识沉淀习惯,乐于分享、乐于协作。
加分项  
• 有SRE/DevOps/高可用架构经验;
• 具有开源项目贡献、技术博客/公众号/技术大会分享记录;
• 具备 AIOps、异常检测、根因定位算法或知识图谱实践经验。

工作职责


1、技术方案设计  
• 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环;
• 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略;
• 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。
2、技术实现  
• 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付;
• 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚;
• 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。
3、安全、稳定、效率和性能优化  
• 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析;
• 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵;
• 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。
4、技术预研  
• 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标;
• 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地;
• 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。
5、技术规划  
• 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等;
• 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度);
• 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。
包括英文材料
分布式系统+
高可用+
脚本+
Java+
Python+
Go+
Bash+
数据分析+
SQL+
R+
DevOps+
算法+
相关职位

logo of aliyun
社招5年以上诚云科技

1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;

更新于 2025-10-13
logo of bytedance
社招A98480A

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10
logo of aliyun
社招8年以上技术类-开发

1、承担MaxCompute管控系统架构师角色,负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案,梳理存储、计算、售卖、控制台、运维体系架构,确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合,共同推进技术项目按要求落地

更新于 2025-04-02
logo of bytedance
社招A81609

1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。

更新于 2025-06-10