logo of ly

同程旅行SRE运维工程师

社招全职5年以上地点:苏州状态:招聘

任职要求


任职要求:
1、5 年以上互联网运维/运维开发经验,本科及以上学历,计算机相关专业优先;
2、精通 Linux 操作系统与网络原理,熟练掌握 Python/Golang/Shell 至少一门脚本语言,具备扎实的编码与调试能力;
3、熟悉 Tomcat、Nginx、LVS、DNS、消息队列、CDN 等常用中间件与组件,有千万级流量系统运维经验;
4、熟练使用各类监控与可观测性系统,具备复杂故障的排查与性能优化能力;
5、具备多活架构、混沌工程、SRE 等相关实…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位描述:
1、负责同程旅行核心服务的高可靠、稳定、高效运行,持续保障核心业务 SLA 达成;
2、主导服务架构设计与评审,推动 AI 辅助的容量规划、性能调优与智能配置治理;
3、推进系统稳定性与容灾方案设计及落地,结合混沌工程与 AI 预测能力构建自适应韧性架构;
4、主导重大故障应急响应,利用智能运维(AIOps)技术,基于多维度监控、日志、Trace数据进行智能告警、自动止损与根因定位;
5、参与日常值班与线上应急响应,并通过自动化与 AI 工具提升故障处理效率与精准性。
包括英文材料
学历+
Linux+
Python+
Go+
Bash+
脚本+
还有更多 •••
相关职位

logo of insta360
社招3年以上

岗位职责: 1. 深入理解主流云平台产品技术原理,具备弹性计算、云网络、云存储、安全、数据库,云管等技能; 2. 负责监控和维护系统的可靠性、可用性和性能。通过分析和处理故障、优化系统配置和资源管理等手段,确保系统的高可靠性和稳定性; 3. 分析和优化系统的性能和容量,确保系统能够满足业务需求。通过负载测试、容量规划和资源管理等手段,优化系统的吞吐量和响应时间; 4. 参与紧急事态的处理和危机管理,快速响应和恢复系统的正常运行。制定应急计划和预案,对紧急情况进行快速反应和处理

更新于 2025-04-23深圳
logo of bytedance
社招3年以上A236551

1、负责海内外游戏业务的部署,架构设计与实施,确保线上服务的良好运行; 2、负责日常游戏服务器的维护,包括服务器维护、线上环境变更、数据备份、监控及报警处理等; 3、快速响应并处理线上环境故障,识别并解决业务线上相关问题,协助分析与优化服务性能瓶颈; 4、不断完善游戏运维流程工具的效率和使用,如发布变更、监控、报警、日志、追溯、网络优化等; 5、维护游戏的关键SLA指标,确保在效率、成本、质量和安全性方面提供良好的运维支持。

更新于 2024-11-01深圳
logo of bytedance
社招A93208

1、支持抖音集团广告系统的稳定性建设,保障系统持续、稳定运行; 2、参与广告系统稳定性架构设计,保障系统的长期高可用与可维护; 3、参与广告系统机房建设,容灾方案设计、演练和实施; 4、参与广告系统的机器资源管理与规划,通过运营机制和优化手段提升资源效率; 5、参与广告系统运维工作自动化,涵盖线上变更、服务监控配置、快速建站部署、资源管理等专项。

更新于 2025-04-01北京
logo of bytedance
社招JL5HV

1、保障抖音/火山/短视频等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。

更新于 2021-12-28北京