阿里巴巴淘天算法技术-运维研发(SRE)专家-北京
任职要求
1. 熟悉一到两门编程语言,熟悉go、python开发优先。 2. 了解一定的运维知识,有实际的互联网大型系统运维经验者优先。 3. 良好的团队合作、沟通管理能力和执行力,能和业务方合作推进Devops落地。 4. 较强的学习能力和适应能力,能快速掌握各种运维相关的系统。
工作职责
1.负责管理数万台设备,并为各产品线合理规划容量,制定交付方案,利用技术和运维的手段提升资源利用率 2.负责FinOps工作,完成成本追踪,成本优化,并开发落地到相关平台中,提升资源成本的投入产出 3.通过历史故障评估和系统架构分析,产出预防、感知、应急等解决方案,结合AI大模型能力开发相关的平台,实现解决方案持续运营有效 4.负责业务相关云原生平台以及中间件相关的业务容灾,整体技术方案升级,以及平台相关的业务异常问题定位,提升业务稳定性
1、技术方案设计 • 基于业务关键路径与风控等级,主导可靠性目标体系设计:SLA、SLO、SLI 定义与度量口径固化,建立 Error Budget 机制并推动准入/发布决策闭环; • 设计统一的可观测性与事件数据模型(日志/指标/链路/事件/变更),输出监控覆盖与告警分级策略; • 面向容量与资源弹性制定预测与规划方案:峰值建模、容量水位、扩缩容阈值、突增防护。 2、技术实现 • 将可靠性方案拆解为落地任务:指标接入、探针开发、告警规则、治理脚本、自动化运维工具、调度策略优化等,按规范交付; • 编写高质量自动化脚本与服务(Python/Go/Java/Shell),实现批量操作、巡检、数据对账、状态校验、健康探测与回滚; • 深度参与故障应急:值班 OnCall、事件指挥、跨团队协调、战情同步;推动 MTTA/MTTR 降低。 3、安全、稳定、效率和性能优化 • 建立全链路 SLI 指标体系:可用性、延迟、吞吐、错误率、资源利用率、队列深度、调度成功率、实例生命周期关键状态等;持续可视化与例会化分析; • 优化告警体系:告警质量指标(噪音率、误报率、漏报率、可行动性)、Alert → Incident 转换标准、分级通知矩阵; • 推进开发协同(左移):在设计、开发与测试阶段加入稳定性 CheckList(幂等性、重试策略、熔断/超时、探活、依赖降级、状态收敛)。 4、技术预研 • 预研 Chaos 工具/平台并结合业务特性沉淀标准化故障模型与韧性指标; • 评估智能告警关联、根因定位、异常检测(时序/拓扑/依赖图谱)算法的适用性与成本收益,推动 PoC 与灰度落地; • 针对下一代可观测性(日志与指标融合、采样优化、eBPF 无侵入追踪)提出演进路线。 5、技术规划 • 基于业务增长曲线、产品演进与战略项目制定年度/季度稳定性 OKR:SLO 提升、MTTR/噪音告警压降、自动化覆盖率、演练覆盖率、容量冗余下降、成本优化目标等; • 规划多活/容灾演进路线:跨 Region 容灾 → 主动故障转移 → 智能调度;分阶段 KPI(RTO/RPO、演练周期、切换自动化程度); • 制定发布与变更分级治理路线:高风险变更识别 → 准入标准 → 影子/灰度策略 → 自动化验收 → 全量放量策略 → 回滚演练常态化。
1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。
1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。