logo of hypergryph

鹰角网络SRE工程师(平台方向)

社招全职3年以上地点:上海状态:招聘

任职要求


计算机相关专业,本科学历,3年以上SRE相关经验;
熟悉一种或多种编程语言,例如Python/Go/Java等;
有良好的计算、网络、存储、安全等计算机体系结构的知识;
熟悉游戏或互联网技术架构,对TCP/IP、服务化架构、中间件等技术有较深入的理解;
熟悉国内外常见云服务商(如阿里云、腾讯云、AWS 等)的产品体系,有实践经验;
熟悉K8s…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责平台、社区、信息化等业务的技术保障工作,包括但不限于日常变更、容量规划、故障处理、活动保障;
推动提升业务的稳定性性、可扩展性以及性能优化,保障业务SLA;
积累SRE最佳实践,为业务架构设计与组件选型提供指导,输出标准技术文档;
包括英文材料
学历+
Python+
Go+
Java+
系统设计+
TCP/IP+
中间件+
AWS+
还有更多 •••
相关职位

logo of bytedance
社招3年以上QAPV

1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的组件稳定性解决方案; 2、持续进行组件的元数据建设,可观测建设,完善多维度的可观测方案; 3、开发平台化、数据可视化和自动化监控流程,以促进国际电商平台组件运维提效的工作; 4、深入了解电商业务,进行组件的风险感知和治理; 5、持续跟进国际电商组件的管理和优化。

更新于 2021-12-01北京
logo of hypergryph
社招3年以上

负责鹰角云平台的设计和研发,如应用管理、流程引擎、监控中心等 负责制定前端研发规范,构建统一、高效的前端研发流程; 参与SRE工作的自动化实践,为公司内部提供拥有极致体验的SRE产品;

更新于 2025-07-25上海
logo of liauto
社招智能与信息技术

1. 负责理想汽车AI平台RDMA网络下大规模GPU集群和并行高速存储的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题,打造自动化,稳定,易于运维的高速网络和超算集群 3. 深入理解业务,推动AI平台在K8S多集群架构、监控平台、日志等方向的云原生架构演进并落地解决方案 4. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化

北京
logo of bytedance
社招5年以上A185461A

1、持续支撑国际化内容安全平台内部视频安全、直播安全等多条业务日常稳定性保障,构建并优化可观测性大盘,积极参与容灾响应和应急,持续提升MTTR和SLA; 2、通过体系化的监控、运维、容量管理、资源成本管理、跨区域容灾建设、巡检、流程规范建设、应急响应、事故管理等方式维护线上服务稳定性,保证服务SLO;同时积极应用数据驱动、自动化运维等方式提升运维效率和稳定性运营能力; 3、面对线上问题有体系化的排查思路,快速定位问题能力,建立事故响应机制。

更新于 2024-09-24上海