logo of bytedance

字节跳动SRE高级工程师/架构师-基础架构

社招全职2年以上A4028地点:北京状态:招聘

任职要求


1、本科以上学历,计算机相关专业,并有两年以上SRE相关领域工作经验;
2、扎实的计算机软件基础知识;了解Linux操作系统、存储、网络IO等相关原理;
3、熟悉一种或多种编程语言,例如Go/Python/Java/Shell等;
4、具备系统化解决问题的能力或工程化研发能力,良…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统;
2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性;
3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性;
4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障;
5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台;
6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
Bash+
大数据+
Nginx+
还有更多 •••
相关职位

logo of baidu
社招3年以上ACG

-负责百度云CDN&边缘计算平台的资源交付、容量管理及大规模分布式集群的架构设计工作,构建行业领先的资源平台 -负责百度云CDN&边缘计算自动化运维平台发布实践、实现CI/CD全流程管控,打造智能化运维平台提升效率及产品服务稳定性 -负责百度云CDN&边缘计算业务运营、指标体系建设 -负责百度云CDN&边缘计算大客户解决方案落地及质量调优工作

更新于 2025-03-31北京
logo of aliyun
社招8年以上技术类-开发

1、承担MaxCompute管控系统架构师角色,负责产品技术架构演进方向 2、面向全球不同客户设计合理的产品方案,梳理存储、计算、售卖、控制台、运维体系架构,确定技术方案选型 3、承担MaxCompute管控系统设计、研发、测试、发布与运维 4、与MaxCompute各研发团队+SRE中台团队+阿里云售卖平台配合,共同推进技术项目按要求落地

更新于 2025-04-02杭州
logo of netease
社招其他

1、负责支撑网易集团旗下云音乐、Loft、支付等互联网产品的运维工作(涵盖操作系统运维、系统运维、容器运维等多个层面的工作),帮助业务持续提升产品稳定性; 2、负责相关运维工具和平台研发,通过工具和平台将运维能力赋能给外部其他团队,帮助其他团队提升效率; 3、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量; 4、持续优化运维操作和流程,保障海量用户的互联网产品稳定运行。

更新于 2025-04-14杭州
logo of baidu
社招3年以上ACG

-负责金融联合建模产品各类在线服务和自动化工具开发,保障服务可靠、稳定、高效运行,保障服务稳定性和数据质量,保障产品SLA -基于百度已有基础设施设计金融联合建模相关在线服务稳定性解决方案,包括预防、止损、降级、容量管理、弹性部署、故障分析、流量分配、性能调优等方案 -参与金融联合建模产品各类在线服务和各类模型产品部署运行架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求 -利用百度已有基础设施和开源技术设计和实施产品监控系统、容灾策略和灾难恢复预案,响应和处理生产环境中的紧急事件,最小化服务中断 -关注业界前沿技术动态,负责大规模机器学习模型在线预测系统优化,演进和新接入技术探索和应用

更新于 2024-10-29北京