得物【安全保障】SRE工程师/专家（偏开发方向）

社招全职3年以上技术类2025-12-26地点：上海状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机相关专业，3年以上互联网公司运维或开发相关经验；
2、熟悉华为云平台及相关服务，包括弹性云服务器、CDN、弹性文件服务、云数据库等
3、具备扎实的计算机基础知识，包括操作系统、计算机网络、数据库；
4、具有优秀的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责实验室华为云服务器维护；
2、负责crawlab平台的开发维护；
3、负责实验室其他服务开发维护。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

还有更多 •••

登录查看完整学习资料

相关职位

【技术保障】算法SRE工程师/专家（偏开发方向）

社招技术类

1.主导搜索/推荐核心链路的端到端稳定性建设，基于 SLO/SLI 与错误预算管理变更节奏，确保高可用与快速交付； 2.设计并演进全链路监控、告警、自愈、降级体系，构建自动化响应与回溯机制，加速问题定位与恢复； 3.深度优化计算、存储、调度、编译链路性能，引入并落地 JIT/AOT 等前沿技术，支撑高吞吐、低延迟算法场景； 4.运营与优化 Zookeeper、Nginx、消息队列等核心组件，保障超大规模分布式环境的稳定性与性能； 5.推进非标服务标准化、容器化与云原生化，利用 Kubernetes 构建规模化、自动化、可灰度的交付与运维体系。

更新于 2025-08-27上海

【技术保障】算法SRE工程师/专家

社招5年以上技术类

1、负责核心搜推工程业务的稳定性，通过指标建设、制度建设、降级容灾、预案设计、容量管理、监控/告警优化等一系列手段提升业务稳定性； 2、高效满足研发团队的运维服务需求，整合技术保障平台能力、服务能力等资源，提供研发团队高质量的支撑保障，并深度参与业务重大架构方案的设计与评审； 3、通过效率指标识别，新技术引进在业务域落地等手段，配合成本运营部门持续优化技术成本投入； 4、负责核心基础服务标准化建设、维护和管理，建立SOP，自动化运维工具，规范团队人员变更操作，确保系统的持续集成与交付。

更新于 2025-08-04上海

蚂蚁集团-SRE专家-国内【平台工程】

社招3年以上技术类-开发

1. 面向业务构建连续性策略，为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标，构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力，协同&推动全局架构演进，进行前瞻性的设计与规划，为全集团业务持续稳定运行负责； 2. 面向全站基础架构，构建站点容灾、建站、弹性等全局技术架构，保障各站点稳定运行，提升业务可用率； 3. 识别业务发展过程中的效能&成本问题，结合AI与智能化技术，进行工程效率提升，降低流量成本与算力成本，改进工程交付效率与质量； 4. 围绕各业务大促活动，提供高性能、高可用、资金安全的常态活动保障方案，构建灵活弹性的容量调度策略，为各头部电商平台提供峰值秒杀技术能力与容量服务；

更新于 2025-06-03上海|杭州

测试开发专家工程师(稳定性方向)(JR2026010700S)

社招5年以上技术

1. 稳定性体系规划与落地（质量侧）：负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表，与 SRE、业务研发团队紧密协同，制定并落地高可用架构标准。从业务视角出发，定义稳定性衡量标准（SLA/SLO），并推动技术团队达成稳定性指标（如降低故障率、缩短 MTTR）。 2. 红蓝对抗与全链路演练(质量侧)：主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景（蓝军视角/导演视角），验证系统的容灾能力和团队的应急响应能力。协同 SRE 建设故障注入平台，推动“以演代战”，确保应急预案的有效性和自动化执行率。 3. 变更风险管控：建立严格的变更管控机制（发布红线、灰度策略、回滚机制）。建设“变更防御”能力，利用自动化手段拦截高风险代码和配置进入生产环境，治理因变更导致的稳定性问题。 4. 线上巡检与业务核对（BCP）：建设分钟级的业务一致性核对系统，确保在系统未报错但业务逻辑异常（如资金损失、数据不一致）时能快速发现。补齐监控盲区：不仅关注系统监控（CPU/内存等），更要补齐业务监控盲区。

更新于 2026-01-13