字节跳动网络SRE工程师/资深专家
任职要求
1、熟悉TCP/IP、VXLAN、BGP等网络协议和交换机底层原理;熟悉K8s和容器网络组件; 2、积极乐观,责任心强,工作认真细致,具有良好的…
工作职责
1、负责字节跳动云原生网络的SRE体系建设,覆盖字节跳动边缘云全量业务,挑战海量架构和前沿技术; 2、负责字节跳动K8s云原生集群的架构优化,稳定性提升和SRE体系优化; 3、负责字节跳动容器网络、虚拟交换机、虚拟网关的SRE体系优化。
1、负责字节跳动接入网关的SRE体系建设,覆盖字节跳动集团所有业务,挑战海量架构和前沿技术; 2、负责字节跳动接入网关的架构优化,稳定性提升和SRE体系优化; 3、负责网关类产品稳定性方案设计和能力建设,包括监控、告警、应急响应、运维数据分析,风险治理等; 4、负责网关类产品运维流程和规划的制定和优化,持续提升交付、变更、运维效率; 5、主导线上故障应急响应,通过Wireshark抓包分析、内核参数调优等手段快速定位网络层问题(如TCP拥塞、丢包重传等); 6、持续优化系统容量规划模型,结合业务流量特征动态调整资源分配策略。
1、负责字节跳动云原生网络的SRE体系建设,覆盖字节跳动边缘云全量业务,挑战海量架构和前沿技术; 2、负责字节跳动K8s云原生集群的架构优化,稳定性提升和SRE体系优化; 3、负责字节跳动容器网络、虚拟交换机、虚拟网关的SRE体系优化。
1、负责字节跳动云原生网络的SRE体系建设,覆盖字节跳动边缘云全量业务,挑战海量架构和前沿技术; 2、负责字节跳动K8s云原生集群的架构优化,稳定性提升和SRE体系优化; 3、负责字节跳动容器网络、虚拟交换机、虚拟网关的SRE体系优化。
1、负责 SHEIN的非关系数据库集群的部署、配置、升级、扩容与容量规划,建立标准化运维流程与变更管理。 2、有丰富的数据库运维经验,可以构建与完善监控告警体系,覆盖 QPS/延迟、GC、Compaction/Merge、副本/分片健康、存储与网络 I/O 等关键指标,推进可观测性建设与告警降噪。 3、高可用与容灾体系建设:多副本、跨 AZ/多集群容灾、备份与恢复演练(RPO/RTO 目标)、故障演练与容量压测。 4、运维自动化与平台化:编写自动化脚本与工具,完善灰度发布、滚动升级、基线回归与发布验收。 5、和业务沟通协作,推动数据库的规范和合理使用