字节跳动大数据SRE运维专家--OLAP方向
任职要求
1、计算机相关专业,本科及以上学历; 2、3年及以上大数据OLAP领域SRE运维工作经验,熟悉OLAP的运维体系建设与稳定性保障。熟悉一个或多个开源组件,如:Clickhouse/Doris/StarRocks/K8s/Spark/Presto/Hadoop等;有实际的大数据商业应用开发运维经验为加分项; 3、熟悉Linux、网络等系统运维的技能,具备运维问题分析、应急解决以及性能调优等能力; 4、对大数据产品问题排查有实际的工作经验,面对线上大数据产品问题有清晰排查思路,具备快速定位问题能力; 5、熟悉至少一门编程语言,包括但不限于:Shell、Python、Java、Scala等; 6、具备良好的沟通表达、团队协作以及自驱能力,促进跨团队的合作。
工作职责
1、负责字节跳动数据平台Clickhouse/Doris等OLAP产品的SLA体系,容灾体系的建设,故障的自愈等,保障业务的持续可用; 2、为字节跳动集团的所有使用Clickhouse/Doris的业务持续提升服务质量,提升用户体验; 3、优化oncall的服务效率, 和产研团队直接合作,推进客户问题的解决,以及产品的持续优化; 4、负责字节跳动大数据产品的SRE平台的研发、自动化建设与持续迭代,引导产品的运维模式向数字化,智能化方向发展演进。
1、负责字节跳动数据平台稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。
1、负责字节跳动数据平台稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性; 2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能; 3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。
1、保障全公司包括抖音、国际化短视频、广告等业务的数据稳定性,提升数据平台服务产品质量,保障业务的持续可用; 2、基于运维经验、工具、平台对线上事故快速响应提升处理效率,同时优化运维体系,推动提升服务可靠性、可扩展性,保障系统SLA,同时推进运维自动化提效; 3、通过持续的全方位运营,包括运维规范及最佳实践、监控及可用性指标、历史事故等,为数据高可用架构设计和选型提供指导,同时能够系统性排查架构风险隐患,推进改进项落地; 4、参与大数据运维平台的研发、自动化建设与持续迭代,引导产品的运维模式向数字化,智能化方向发展演进。

1. 负责公司平台服务运维工作,管理平台运维团队,提升业务稳定性和工程效率。 2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作。 3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代。 4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化。 5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复。 6. 负责应用容器化场景下高可用建议及管理,包括限流、降级,容错、容灾确保应用质量。 7. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。