logo of ctrip

携程资深SRE工程师(MJ026647)

社招全职3年以上技术团队运维地点:上海状态:招聘

任职要求


1. 计算机或相关专业本科以上学历,3年以上运维开发经验。
2. 具备良好的团队合作精神、较强的自驱力、抗压能力、沟通能力、责任心。
3. 具有较强的逻辑思维能力和一定的问题抽象能力,并有很强的沟通以及主动推进问题直至解决问题的能力。
4. 熟悉SRE的主要职责,对可用性保障工作有深刻理解和认同。
5. 精通Linux系统、网络协议、数据库原理等,具备系统、网络、数据库故障排查经验。
6. 熟悉NginxTomcatGit、ELK等主流开源软件的性能优化和故障定位。
7. 加分项:对容器、Kubernetes和云技术有了解和使用经验,有数据可视化工具开发相关经验。

工作职责


1. 保障在线业务系统的可靠性与健康性,重点关注系统容量与稳定性。
2. 推动提升服务的可靠性、扩展性和性能优化,降低服务成本消耗。
3. 提出和实施改进服务稳定性及运维灵活性的方案,不断优化现有技术栈,提升运维效率。
4. 优化最佳实践,包含关键链路性能分析、业务问题定位排障、推进系统高可用架构改造升级。
5. 参与相关专项治理活动,提升事业部SRE效能。
6. 负责日常云上问题定位排查,跟踪问题处理。
7. 组织和协调部门内部演练,确保团队在突发事件中能够快速响应和处理。
8. 负责制定和管理值班计划,确保节假日期间系统的稳定运行。
包括英文材料
学历+
Linux+
Nginx+
Tomcat+
Git+
Kubernetes+
相关职位

logo of bytedance
社招3年以上QAPV

1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的组件稳定性解决方案; 2、持续进行组件的元数据建设,可观测建设,完善多维度的可观测方案; 3、开发平台化、数据可视化和自动化监控流程,以促进国际电商平台组件运维提效的工作; 4、深入了解电商业务,进行组件的风险感知和治理; 5、持续跟进国际电商组件的管理和优化。

更新于 2021-12-01
logo of bytedance
社招A35517

1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的SRE解决方案; 2、深度参与国际电商容灾能力建设,提供端到端容灾解决方案,确保极端故障场景的容灾切流能力; 3、持续提升国际电商SRE在稳定性、效率、成本、安全等方面的核心能力,参与核心指标运营(包括故障召回率、SLI、MTTD、MTTR、资源利用率等); 4、推动运维工具及平台解决方案的设计和落地,提升国际电商平台基础设施的能力; 5、参与线上Oncall,响应性能和可用性问题,解决问题并最大限度地减少故障时间。

更新于 2025-04-29
logo of bytedance
社招A253750A

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播稳定性建设,保障和优化直播业务SLA; 2、海外多机房容灾建设,重大风险发现和治理,资源规划与重点活动保障; 3、系统性设计并实施容灾、容错、限流、降级、故障自愈等稳定性方案; 4、AI工具探索,提升故障发现、定位、止损效率。

更新于 2025-04-02
logo of bytedance
社招A135177B

1、负责字节跳动云原生网络的SRE体系建设,覆盖字节跳动边缘云全量业务,挑战海量架构和前沿技术; 2、负责字节跳动K8s云原生集群的架构优化,稳定性提升和SRE体系优化; 3、负责字节跳动容器网络、虚拟交换机、虚拟网关的SRE体系优化。

更新于 2024-08-19