logo of bytedance

字节跳动运维平台架构师/Tech Lead-监控方向

社招全职5年以上A178760地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业,并有五年及以上相关领域工作经验;
2、扎实的计算机软件基础,熟悉 Linux 操作系统,熟练掌握 Go/Python/Java 中至少一门程序开发语言;
3、有较好的架构设计、代码开发经验,能够制定可拆解可落地的目标,并能够在技术和产品设计上指导团队内同学;
4、熟悉监控/告警/日志/事件/trace等全链路观测产品体系,从0到1建设过巡检、告警、诊断、预案、自愈等系统,具备观测产品整体架构设计经验者优先;
5、对数据化、AIOPS 有一定理解和实践经验,有大型云计算运维平台架构开发经验者优先。

工作职责


1、负责字节基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台;
2、构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验;
3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短 MTTR,保证生产稳定性;
4、持续跟进业界前沿技术方案并结合字节内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
系统设计+
相关职位

logo of bytedance
社招5年以上A131645

1、负责字节基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验; 3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短 MTTR,保证生产稳定性; 4、持续跟进业界前沿技术方案并结合字节内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。

更新于 2023-09-21
logo of bytedance
社招5年以上A150329

1、负责字节跳动基础架构计算/存储/数据库/大数据等产品的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、构建统一的全链路观测体系(Metrics、Log、Event、Trace),持续迭代优化产品体验; 3、构建一体化的风险、告警、异常、故障等健康管理体系,运用技术化的手段(巡检、诊断、预案、自愈)缩短MTTR,保证生产稳定性; 4、构建基础架构组件SLI、SLO、SLA管理以及计算框架,帮助业务梳理核心SLI,提升异常处理效率以及协同能力; 5、持续跟进业界前沿技术方案并结合内场实际情况,探索可观测性产品建设方向并落地应用,持续提升基础设施的稳定性。

更新于 2023-09-21
logo of bytedance
社招5年以上A121675

1、负责字节跳动基础架构部基础组件(计算/存储/数据库/大数据等产品)的统一运维管控平台的架构设计与开发工作,打造业界领先的运维基础设施平台; 2、打造基础组件的全链路 Devops 工具体系建设,支撑业务的版本交付与效能建设; 3、设计并推动运维生态体系的全链路云原生化构建,打造业界领先的云原生 PaaS 平台; 4、构建端到端的资源预算交付体系,涵盖物理机/虚拟机/云资源的全链路交付与运营体系建设; 5、构建私有云/公有云基础设施组件机房全链路自动化交付体系,提升海内外机房基础设施组件的整体交付效率。

更新于 2023-10-23
logo of bytedance
社招5年以上A118768

1、结合部门技术能力与相关技术域进行协同,设计与规划面向未来具备竞争力的故障诊断与自愈系统; 2、与SRE和业务部门紧密合作,通过设计与规划的系统解决用户的现网通道,提升整体的运维效率与质量; 3、与产品和开发团队一起设计开发高稳定性的智能运维系统,系统架构具备高可用,高可靠性和安全性; 4、跟踪技术趋势和行业最佳实践,提供创新的解决方案,优化系统架构;主导一个或者多个运维系统中长期的技术规划; 5、具备全面的技术能力,能参与负责故障应急响应,帮忙团队一起解决生产环境中的复杂故障。

更新于 2023-09-21