logo of alibaba

阿里巴巴淘天算法技术-运维研发(SRE)专家-北京

社招全职地点:北京状态:招聘

任职要求


1.  熟悉一到两门编程语言,熟悉gopython开发优先。
2. 了解一定的运维知识,有实际的互联网大型系统运维经验者优先。
3. 良好的团队合作、沟通管理能力和执行力,能和业务方合作推进Devops落地。
4. 较强的学习能力和适应能力,能快速掌握各种运维相关的系统。

工作职责


1.负责管理数万台设备,并为各产品线合理规划容量,制定交付方案,利用技术和运维的手段提升资源利用率
2.负责FinOps工作,完成成本追踪,成本优化,并开发落地到相关平台中,提升资源成本的投入产出
3.通过历史故障评估和系统架构分析,产出预防、感知、应急等解决方案,结合AI大模型能力开发相关的平台,实现解决方案持续运营有效
4.负责业务相关云原生平台以及中间件相关的业务容灾,整体技术方案升级,以及平台相关的业务异常问题定位,提升业务稳定性
包括英文材料
Go+
Python+
相关职位

logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。

更新于 2025-09-17
logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。

logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。

logo of aliyun
社招5年以上云智能集团

1、负责阿里云容器服务SRE平台建设工作,负责k8s集群全生命周期的日常运维工作,确保集群稳定性SLA达标; 2、负责建立k8s配套运维平台,提升运维效率,确保集群运维能力的可持续发展; 3、负责K8S集群日常oncall体系和能力建设,端到端定位k8s集群的功能和性能问题,解决线上问题; 4、牵头跨部门复杂项目(如业务容器化项目),推进业务和技术目标落地。

更新于 2025-07-22