logo of hello

哈啰SRE / 存储工程师

社招全职软研类地点:上海 | 北京状态:招聘

任职要求


精通 Linux 系统、Shell/Python/Go 脚本,熟悉集群管理和运维工具。
	•	熟悉 Kubernetes、容器化部署、网络和存储管理。
	•	有大型 HPC/AI 超算集群或云原生平台…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


•	负责万卡超算集群、多云、多集群环境的高可用性、稳定性和性能保障。
	•	构建和优化监控、告警、日志、追踪、容量规划及自动化运维体系。
	•	支撑训练、推理和资产管理平台的端到端可靠性和性能优化。
	•	接触前沿技术:Prometheus/Grafana、Loki、K8s Operator、自动化运维、云原生平台。
包括英文材料
Linux+
内核+
Terraform+
Ansible+
性能调优+
Bash+
还有更多 •••
相关职位

logo of aliyun
社招8年以上技术类-开发

1、承担MaxCompute管控系统架构师角色,负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案,梳理存储、计算、售卖、控制台、运维体系架构,确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合,共同推进技术项目按要求落地

更新于 2025-04-02杭州
logo of aliyun
社招2年以上诚云科技

1、云产品稳定性保障,风险巡检 客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理 2、客户技术专项处置与支持 复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作 3、排查问题,管控体验 高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情 4、专精客户行业,技术沉淀 提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力

更新于 2025-10-10西安|北京|杭州
logo of aliyun
社招3年以上诚云科技

1、云产品稳定性保障,风险巡检 客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理 2、客户技术专项处置与支持 复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作 3、排查问题,管控体验 高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情 4、专精客户行业,技术沉淀 提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力

更新于 2025-11-26西安|北京|杭州
logo of aliyun
社招5年以上诚云科技

1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;

更新于 2025-10-21北京|上海