携程资深SRE工程师(MJ026647)
任职要求
1. 计算机或相关专业本科以上学历,3年以上运维开发经验。 2. 具备良好的团队合作精神、较强的自驱力、抗压能力、沟通能力、责任心。 3. 具有较强的逻辑思维能力和一定的问题抽象能力,并有很强的沟通以及主动推进问题直至解决问题的能力。 4. 熟悉SRE的主要职责,对可用性保障工作有深刻理解和认同。 5. 精通Linux系统、网络协议、数据库原理等,具备系统、网络、数据库故障排查经验。 6. 熟悉Nginx、Tomcat、Git、ELK等主流开源软件的性能优化和故障定位。 7. 加分项:对容器、Kubernetes和云技术有了解和使用经验,有数据可视化工具开发相关经验。
工作职责
1. 保障在线业务系统的可靠性与健康性,重点关注系统容量与稳定性。 2. 推动提升服务的可靠性、扩展性和性能优化,降低服务成本消耗。 3. 提出和实施改进服务稳定性及运维灵活性的方案,不断优化现有技术栈,提升运维效率。 4. 优化最佳实践,包含关键链路性能分析、业务问题定位排障、推进系统高可用架构改造升级。 5. 参与相关专项治理活动,提升事业部SRE效能。 6. 负责日常云上问题定位排查,跟踪问题处理。 7. 组织和协调部门内部演练,确保团队在突发事件中能够快速响应和处理。 8. 负责制定和管理值班计划,确保节假日期间系统的稳定运行。
1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的组件稳定性解决方案; 2、持续进行组件的元数据建设,可观测建设,完善多维度的可观测方案; 3、开发平台化、数据可视化和自动化监控流程,以促进国际电商平台组件运维提效的工作; 4、深入了解电商业务,进行组件的风险感知和治理; 5、持续跟进国际电商组件的管理和优化。
1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的SRE解决方案; 2、深度参与国际电商容灾能力建设,提供端到端容灾解决方案,确保极端故障场景的容灾切流能力; 3、持续提升国际电商SRE在稳定性、效率、成本、安全等方面的核心能力,参与核心指标运营(包括故障召回率、SLI、MTTD、MTTR、资源利用率等); 4、推动运维工具及平台解决方案的设计和落地,提升国际电商平台基础设施的能力; 5、参与线上Oncall,响应性能和可用性问题,解决问题并最大限度地减少故障时间。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播稳定性建设,保障和优化直播业务SLA; 2、海外多机房容灾建设,重大风险发现和治理,资源规划与重点活动保障; 3、系统性设计并实施容灾、容错、限流、降级、故障自愈等稳定性方案; 4、AI工具探索,提升故障发现、定位、止损效率。