logo of dewu

得物【技术保障】业务SRE专家

社招全职5年以上技术类地点:上海状态:招聘

任职要求


1. 至少5年以上互联网公司运维相关经验;
2. 熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;
3. 熟悉Nginx,Zookeeper, Kafka, RocketMQ等常用WEB中间件的维护与使用;
4. 熟悉常见监控系统,如Zabbix,Grafana,Prometheus等;
5. 熟悉MemcacheRedis、Twemproxy等开源缓存解决方案;
6. 有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;
7. 良好的troubleshooting思路与经验,能够快速解决线上事故;
8. 至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先;
9. 熟悉SRE运维体系者优先;
10. 熟悉高并发高可用微服务系统架构运维者优先。

工作职责


1. 负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;
2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作;
3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;
4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化;
5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;
6. 负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;
7. 建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;
8. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。
包括英文材料
JVM+
GC+
Java+
Nginx+
ZooKeeper+
Kafka+
RocketMQ+
Web+
中间件+
Grafana+
Prometheus+
Memcached+
Redis+
缓存+
Python+
Bash+
Go+
高并发+
高可用+
微服务+
相关职位

logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。

logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。

logo of bytedance
社招3年以上A90366

1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。

更新于 2024-12-04
logo of tencent
社招8年以上CSIG技术

1.负责云产品稳定性治理,保障业务高度稳定性; 2.负责云产品稳定性方向路线规划,洞察领域发展方向,熟悉前沿进展,结合腾讯云现状制定目标达成路线; 3.负责云产品稳定性体系建设,包括不限于流程管理,Devops全生命周期管理,容量管理,告警治理,故障生命周期管理,红蓝对抗演习,混沌演习等; 4.负责云产品稳定性架构优化,可以根据不同业务业务架构,抽象共性,以稳定性为目标制定标准规范,识别风险,拆解任务,验收结果最终达成稳定性目标; 5.负责云产品稳定性组件&工具建设,通过组件或工具提升稳定性治理效率。

更新于 2025-05-23