字节跳动SRE运维开发工程师-国际化广告
任职要求
1、本科及以上学历,计算机、软件工程相关专业,具备互联网业务运维经验; 2、具备扎实的计算机软件开发基础知识,精通 Linux 操作系统、网络、存储等相关原理; 3、具备较强的分析和解决问题能力,…
工作职责
1、负责字节跳动海内外广告系统的稳定性,保障系统持续、稳定运行; 2、参与广告系统稳定性架构设计,保障系统的长期高可用和可维护; 3、负责广告系统的容灾方案设计、演练和实施; 4、负责广告系统的机器资源管理与规划,提升资源效率; 5、负责广告系统运维工作自动化,包括线上变更、服务监控配置、资源管理等。
1、国际化架构与容灾建设 — 参与公司国际化基础设施架构设计与落地,负责跨 Region 架构、容灾与高可用能力建设,推动关键业务具备多 Region 部署、容灾切换及故障隔离能力,提升海外业务整体稳定性水平。 2、海外基础技术平台建设与运维 — 负责公司基础技术管控平台(如发布系统、监控告警、配置中心、服务治理、流量调度等)在海外 Region 的部署、运维与持续优化,保障海外环境与国内平台体系的一致性与可用性。 3、稳定性治理与应急响应 — 负责海外业务稳定性体系建设,包括可观测能力建设、故障应急响应、根因分析与复盘机制建设;在重大故障场景下牵头协调跨团队资源,快速恢复服务并推动系统性改进。 4、国际化技术方案落地 — 深入理解海外业务需求与架构特点,推动基础设施能力在海外场景的落地,包括多 Region 架构设计、网络与数据架构优化、基础服务能力适配等。 5、跨团队协作与体系建设 — 与国内基础设施团队、业务研发团队及平台团队紧密协作,推动海外技术体系与国内架构标准保持一致;沉淀海外稳定性最佳实践并推动在组织内推广。 1、International Architecture & Disaster Recovery — Participate in the design and implementation of Rednote's international infrastructure architecture. Build and evolve cross-region architecture, disaster recovery, and high-availability capability development. Drive critical services toward multi-region deployment, failover, and fault isolation to improve overall stability of overseas operations. 2、Overseas Infrastructure Platform Development & Operations — Own the deployment, operations, and continuous optimization of core internal technical platforms (release systems, monitoring & alerting, configuration services,service management, traffic scheduling, etc.) in overseas regions. Ensure consistency and availability across overseas and domestic platform environments. 3、Reliability Engineering & Incident Response — Build and continuously improve the reliability framework for overseas business, including observability capabilities, incident response, root cause analysis, and post-mortem mechanisms. Lead cross-functional coordination during major incidents to restore services quickly and drive (long-term)systemic improvements. 4、International Technical Solution Delivery — Develop a deep understanding of overseas business requirements and architecture characteristics. Drive infrastructure capabilities to fit overseas scenarios, including multi-region architecture design, network and data architecture optimization, and adaptation of foundational services. 5、Cross-functional Collaboration & Best Practice Development — Work closely with domestic infrastructure, product engineering teams, and platform teams to align overseas technical standards with domestic architecture standards. Consolidate and promote overseas stability best practices across the organization.
1、负责字节跳动大数据平台高可用性保障,协同大数据各组件团队制定稳定性标准、明确职责边界、推进稳定性项目落地; 2、负责运维流程标准建设和相应工具能力建设,包括稳定性目标管理、监控诊断运维能力、容灾应急方案等; 3、负责推进大数据组件风险治理和事故管理,降低平台事故、提升运维效率、降低运维成本。
1、参与商家平台方向相关系统的开发与优化,包括商家入驻、商家工作台、商客服等子方向; 2、参与国际化电商商家基础模型的设计讨论,以及优化落地; 3、参与系统架构改进,对系统进行稳定性、高可用建设和运维。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、保障核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、建设运维工具和平台,推进核心系统各组件风险巡检和日常运维操作自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。