字节跳动运维平台架构师/Tech Lead-监控方向
任职要求
1、本科及以上学历,计算机相关专业,并有五年及以上相关领域工作经验; 2、扎实的计算机软件基础,熟悉 Linux 操作系统,熟练掌握 Go/Python/Java 中至少一门程序开发语言; 3、有较好的架构设计、代码开发经验,能够制定可拆解可落地的目标,并能够在技术和产品设计上指导团队内同学; 4、熟悉监控/告警/日志/事件/trace等全链路观测产品体系,从0到1建设过巡检、告警、诊断、预案、自愈等系统,具备观测产品整体架构设计经验者优先; 5、对数据化、AIOPS 有一定理解和实践经验,有大型云计算运维平台架构开发经验者优先。
工作职责
1、负责字节基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验; 3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短 MTTR,保证生产稳定性; 4、持续跟进业界前沿技术方案并结合字节内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。
1、负责字节基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验; 3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短 MTTR,保证生产稳定性; 4、持续跟进业界前沿技术方案并结合字节内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。
1、负责字节跳动基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、构建统一的全链路观测体系(Metrics、Log、Event、Trace),持续迭代优化产品体验; 3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短MTTR,保证生产稳定性; 4、构建基础架构组件SLI、SLO、SLA管理以及计算框架,帮助业务梳理核心SLI,提升异常处理效率以及协同能力; 5、持续跟进业界前沿技术方案并结合内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。
1、负责字节跳动基础架构部基础组件(计算/存储/数据库/大数据等产品)的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、打造基础组件的全链路 Devops 工具体系建设,支撑业务的版本交付与效能建设; 3、设计并推动运维生态体系的全链路云原生化构建,打造业界领先的云原生 PaaS 平台; 4、构建端到端的资源预算交付体系,涵盖物理机/虚拟机/云资源的全链路交付与运营体系建设; 5、构建私有云/公有云基础设施组件机房全链路自动化交付体系,提升海内外机房基础设施组件的整体交付效率。