阿里巴巴淘天算法技术-运维研发（SRE）专家-北京

社招全职2025-04-17地点：北京状态：招聘

扫码手机上打开

任职要求

1.  熟悉一到两门编程语言，熟悉go、python开发优先。
2. 了解一定的运维知识，有实际的互联网大型系统运维经验者优先。
3. …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责管理数万台设备，并为各产品线合理规划容量，制定交付方案，利用技术和运维的手段提升资源利用率
2.负责FinOps工作，完成成本追踪，成本优化，并开发落地到相关平台中，提升资源成本的投入产出
3.通过历史故障评估和系统架构分析，产出预防、感知、应急等解决方案，结合AI大模型能力开发相关的平台，实现解决方案持续运营有效
4.负责业务相关云原生平台以及中间件相关的业务容灾，整体技术方案升级，以及平台相关的业务异常问题定位，提升业务稳定性

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Python+

相关职位

阿里云智能-管控系统SRE研发专家-北京/杭州

社招5年以上云智能集团

1、技术方案设计 • 基于业务关键路径与风控等级，主导可靠性目标体系设计：SLA、SLO、SLI 定义与度量口径固化，建立 Error Budget 机制并推动准入/发布决策闭环； • 设计统一的可观测性与事件数据模型（日志/指标/链路/事件/变更），输出监控覆盖与告警分级策略； • 面向容量与资源弹性制定预测与规划方案：峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务：指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等，按规范交付； • 编写高质量自动化脚本与服务（Python/Go/Java/Shell），实现批量操作、巡检、数据对账、状态校验、健康探测与回滚； • 深度参与故障应急：值班 OnCall、事件指挥、跨团队协调、战情同步；推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系：可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等；持续可视化与例会化分析； • 优化告警体系：告警质量指标（噪音率、误报率、漏报率、可行动性）、Alert → Incident 转换标准、分级通知矩阵； • 推进开发协同（左移）：在设计、开发与测试阶段加入稳定性 CheckList（幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛）。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标； • 评估智能告警关联、根因定位、异常检测（时序/拓扑/依赖图谱）算法的适用性与成本收益，推动 PoC 与灰度落地； • 针对下一代可观测性（日志与指标融合、采样优化、eBPF 无侵入追踪）提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR：SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等； • 规划多活/容灾演进路线：跨 Region 容灾 → 主动故障转移 → 智能调度；分阶段 KPI（RTO/RPO、演练周期、切换自动化程度）； • 制定发布与变更分级治理路线：高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。

更新于 2025-11-26北京|杭州

技术运营（SRE）专家/负责人

社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理，保障核心应用的稳定可靠运行，结合业界技术演进迭代基础设施架构，通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链，以及相应监控、配置、日志、智能化运营（AIOps）能力建设，制定业务相关的运维技术方案，确保业务高效稳定的运行。 3.负责服务的容量规划和预测，软件的性能分析以及系统调优，软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设，制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施，保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造，构建新一代 AI 友好型研发基础设施。 6.负责技术运营（SRE）团队的日常管理，带领团队达成业务建设目标。

北京

技术运营（SRE）专家

社招5年以上智能与信息技术

北京

阿里云智能-容器SRE平台技术专家-杭州/北京/深圳

社招5年以上云智能集团

1、负责阿里云容器服务SRE平台建设工作，负责k8s集群全生命周期的日常运维工作，确保集群稳定性SLA达标； 2、负责建立k8s配套运维平台，提升运维效率，确保集群运维能力的可持续发展； 3、负责K8S集群日常oncall体系和能力建设，端到端定位k8s集群的功能和性能问题，解决线上问题； 4、牵头跨部门复杂项目（如业务容器化项目），推进业务和技术目标落地。

更新于 2025-07-22北京|深圳|杭州