字节跳动资深SRE工程师-TikTok直播
社招全职A253750A地点:北京状态:招聘
任职要求
1、有大流量产品和分布式系统稳定性建设、国际化机房部署、架构优化和成本优化等经验优先; 2、本科以上学历,计算机基础扎实,熟悉操作系统、网络等相关知识原理; 3、至少熟悉一种编程语言,熟悉微服务架构,熟悉常见软件架构模式; 4、具备系统化解决问题的能力,优秀的问题抽象能力,良好的沟通技巧和主人翁责任感。
工作职责
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播稳定性建设,保障和优化直播业务SLA; 2、海外多机房容灾建设,重大风险发现和治理,资源规划与重点活动保障; 3、系统性设计并实施容灾、容错、限流、降级、故障自愈等稳定性方案; 4、AI工具探索,提升故障发现、定位、止损效率。
包括英文材料
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
学历+
微服务+
https://learn.microsoft.com/en-us/training/modules/dotnet-microservices/
Microservice applications are composed of small, independently versioned, and scalable customer-focused services that communicate with each other by using standard protocols and well-defined interfaces.
https://microservices.io/
Microservices - also known as the microservice architecture - is an architectural style that structures an application as a collection of two or more services.
https://spring.io/microservices
Building small, self-contained, ready to run applications can bring great flexibility and added resilience to your code.
https://www.ibm.com/think/topics/microservices
Microservices, or microservices architecture, is a cloud-native architectural approach in which a single application is composed of many loosely coupled and independently deployable smaller components or services.
https://www.youtube.com/watch?v=CqCDOosvZIk
https://www.youtube.com/watch?v=hmkF77F9TLw
Learn about software system design and microservices.
相关职位
社招3年以上技术团队运维
1. 保障在线业务系统的可靠性与健康性,重点关注系统容量与稳定性。 2. 推动提升服务的可靠性、扩展性和性能优化,降低服务成本消耗。 3. 提出和实施改进服务稳定性及运维灵活性的方案,不断优化现有技术栈,提升运维效率。 4. 优化最佳实践,包含关键链路性能分析、业务问题定位排障、推进系统高可用架构改造升级。 5. 参与相关专项治理活动,提升事业部SRE效能。 6. 负责日常云上问题定位排查,跟踪问题处理。 7. 组织和协调部门内部演练,确保团队在突发事件中能够快速响应和处理。 8. 负责制定和管理值班计划,确保节假日期间系统的稳定运行。
更新于 2025-03-13
社招3年以上QAPV
1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的组件稳定性解决方案; 2、持续进行组件的元数据建设,可观测建设,完善多维度的可观测方案; 3、开发平台化、数据可视化和自动化监控流程,以促进国际电商平台组件运维提效的工作; 4、深入了解电商业务,进行组件的风险感知和治理; 5、持续跟进国际电商组件的管理和优化。
更新于 2021-12-01
社招A35517
1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的SRE解决方案; 2、深度参与国际电商容灾能力建设,提供端到端容灾解决方案,确保极端故障场景的容灾切流能力; 3、持续提升国际电商SRE在稳定性、效率、成本、安全等方面的核心能力,参与核心指标运营(包括故障召回率、SLI、MTTD、MTTR、资源利用率等); 4、推动运维工具及平台解决方案的设计和落地,提升国际电商平台基础设施的能力; 5、参与线上Oncall,响应性能和可用性问题,解决问题并最大限度地减少故障时间。
更新于 2025-04-29