
得物【安全保障】SRE工程师/专家(偏开发方向)
任职要求
1、本科及以上学历,计算机相关专业,3年以上互联网公司运维或开发相关经验;
2、熟悉华为云平台及相关服务,包括弹性云服务器、CDN、弹性文件服务、云数据库等
3、具备扎实的计算机基础知识,包括操作系统、计算机网络、数据库;
4、具有优秀的…工作职责
1、负责实验室华为云服务器维护; 2、负责crawlab平台的开发维护; 3、负责实验室其他服务开发维护。

1.主导搜索/推荐核心链路的端到端稳定性建设,基于 SLO/SLI 与错误预算管理变更节奏,确保高可用与快速交付; 2.设计并演进全链路监控、告警、自愈、降级体系,构建自动化响应与回溯机制,加速问题定位与恢复; 3.深度优化计算、存储、调度、编译链路性能,引入并落地 JIT/AOT 等前沿技术,支撑高吞吐、低延迟算法场景; 4.运营与优化 Zookeeper、Nginx、消息队列等核心组件,保障超大规模分布式环境的稳定性与性能; 5.推进非标服务标准化、容器化与云原生化,利用 Kubernetes 构建规模化、自动化、可灰度的交付与运维体系。

1、负责核心搜推工程业务的稳定性,通过指标建设、制度建设、降级容灾、预案设计、容量管理、监控/告警优化等一系列手段提升业务稳定性; 2、高效满足研发团队的运维服务需求,整合技术保障平台能力、服务能力等资源,提供研发团队高质量的支撑保障,并深度参与业务重大架构方案的设计与评审; 3、通过效率指标识别,新技术引进在业务域落地等手段,配合成本运营部门持续优化技术成本投入; 4、负责核心基础服务标准化建设、维护和管理,建立SOP,自动化运维工具,规范团队人员变更操作,确保系统的持续集成与交付。
1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责; 2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率; 3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量; 4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。