哈啰SRE / 存储工程师

社招全职软研类2026-01-08地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

精通 Linux 系统、Shell/Python/Go 脚本，熟悉集群管理和运维工具。
	•	熟悉 Kubernetes、容器化部署、网络和存储管理。
	•	有大型 HPC/AI 超算集群或云原生平台…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

•	负责万卡超算集群、多云、多集群环境的高可用性、稳定性和性能保障。
	•	构建和优化监控、告警、日志、追踪、容量规划及自动化运维体系。
	•	支撑训练、推理和资产管理平台的端到端可靠性和性能优化。
	•	接触前沿技术：Prometheus/Grafana、Loki、K8s Operator、自动化运维、云原生平台。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

内核+

Terraform+

Ansible+

性能调优+

Bash+

还有更多 •••

登录查看完整学习资料

相关职位

存储SRE工程师

社招3-5年J0012

1、负责快手超大规模分布式存储，包括文件存储、对象存储、块存储等分布式存储系统的日常维护，保障服务高可用和高可靠性； 2、管理大规模存储引擎资源，从资源的申请、交付、使用、治理的全流程运营，保障资源运行效率以及控制容量风险； 3、建设大规模存储系统运维平台和工具，保障数万规模存储系统操作效率以及操作质量； 4、负责服务的监控报警、巡检管理，为线上的稳定性负责。

更新于 2026-02-13深圳|北京|杭州

存储SRE工程师

社招D7194

更新于 2025-07-01杭州

存储SRE工程师

社招D7194

更新于 2025-07-01北京

蚂蚁集团-高级DBA/存储运维工程师-成都

社招3年以上技术-SRE

1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急，保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等)，提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景，输出系统性优化解决方案，并实现平台化落地。 d. 针对业务场景设计存储选型方案，平衡性能、成本与可维护性。 e. 制定存储产品，组件运维、变更SOP，以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进，降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等)，推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库，基于RAG等技术完善智能答疑的能力，并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地，实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术，主导关键组件的升级与架构演进。

更新于 2025-05-15成都