
得物【安全保障】SRE工程师/专家(偏开发方向)
任职要求
1、本科及以上学历,计算机相关专业,3年以上互联网公司运维或开发相关经验;
2、熟悉华为云平台及相关服务,包括弹性云服务器、CDN、弹性文件服务、云数据库等
3、具备扎实的计算机基础知识,包括操作系统、计算机网络、数据库;
4、具有优秀的…工作职责
1、负责实验室华为云服务器维护; 2、负责crawlab平台的开发维护; 3、负责实验室其他服务开发维护。

1.主导搜索/推荐核心链路的端到端稳定性建设,基于 SLO/SLI 与错误预算管理变更节奏,确保高可用与快速交付; 2.设计并演进全链路监控、告警、自愈、降级体系,构建自动化响应与回溯机制,加速问题定位与恢复; 3.深度优化计算、存储、调度、编译链路性能,引入并落地 JIT/AOT 等前沿技术,支撑高吞吐、低延迟算法场景; 4.运营与优化 Zookeeper、Nginx、消息队列等核心组件,保障超大规模分布式环境的稳定性与性能; 5.推进非标服务标准化、容器化与云原生化,利用 Kubernetes 构建规模化、自动化、可灰度的交付与运维体系。

1、负责核心搜推工程业务的稳定性,通过指标建设、制度建设、降级容灾、预案设计、容量管理、监控/告警优化等一系列手段提升业务稳定性; 2、高效满足研发团队的运维服务需求,整合技术保障平台能力、服务能力等资源,提供研发团队高质量的支撑保障,并深度参与业务重大架构方案的设计与评审; 3、通过效率指标识别,新技术引进在业务域落地等手段,配合成本运营部门持续优化技术成本投入; 4、负责核心基础服务标准化建设、维护和管理,建立SOP,自动化运维工具,规范团队人员变更操作,确保系统的持续集成与交付。
1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率; 2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力; 3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设; 4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题; 5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。
1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责; 2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率; 3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量; 4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;