字节跳动SRE高级/工程师/架构师/负责人

社招全职2年以上UG522021-10-15地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科以上学历, 计算机相关专业, 并有两年以上相关领域工作经验；
2、扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理；
3、熟悉一种或多种编程语言，例如 Python/Go/Java/Shell等；
4、具备系统化解决…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

Site Reliability Engineer (SRE) 结合了软件和系统工程，致力于打造高扩展、高可用的分布式系统。
1、保障大数据&计算多个核心系统的可靠性与正常运行，同时关注系统成本与稳定性；
2、为大型系统构建自动化运营解决方案；与系统开发团队合作，从系统设计到上线的整个生命周期内保障系统可靠性；
3、通过监控系统组件可用性、性能指标提升系统可见性，帮助系统开发以及团队快速定位故障；
4、推动提升服务的可靠性、可扩展性以及成本、性能优化，保障系统 SLA；
5、参与设计、实现能够保障线上大规模集群快速迭代的自动化平台；
6、基于业务使用场景，深入优化提供最佳服务治理实践，包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

Python+

Go+

Java+

Bash+

大数据+

Nginx+

还有更多 •••

登录查看完整学习资料

相关职位

SRE高级工程师-飞连

社招3年以上A91599A

1、负责Sdwan网络的日常运维、监控和故障排除，及时响应并解决网络故障和性能问题； 2、构建和维护Sdwan网络的监控和告警系统，实现对网络状态的全面监控和预警； 3、开发和维护自动化运维工具和脚本，提高运维效率，减少人为错误，并负责编写和维护Sdwan网络相关的文档和知识库； 4、参与容量规划和性能测试，确保Sd-wan网络能够满足业务需求。

更新于 2025-01-08北京

腾讯云AI代码助手-高级SRE工程师

社招3年以上CSIG技术

1.负责 AI 代码助手平台线上业务系统的日常运维，保障系统 7×24 小时稳定运行； 2.设计并完善 AI 代码助手的监控体系，实时监控系统性能、资源利用率、用户并发连接数等关键指标，通过数据分析提前发现潜在风险并制定解决方案； 3.制定并实施系统可靠性提升方案，优化 AI 代码助手的系统架构与部署，增强系统在高并发场景下的可用性和容错能力； 4.开发和维护自动化运维工具与脚本，实现服务器部署、配置管理、故障处理等运维任务的自动化，提升运维效率； 5.建立并完善应急响应机制，制定应急预案并定期演练，在系统故障时快速响应恢复；深入分析故障，制定改进措施避免复发； 6.结合业务发展和用户增长预测，对 AI 代码助手系统进行容量规划和性能评估，提前调整服务器资源，优化系统性能； 7.负责研发效能提升工作，搭建高效的流水线，实现代码自动化构建、测试与部署，减少人工干预，提升交付速度。

更新于 2025-05-20西安

阿里云智能-百炼稳定性工程专家/高级工程师-北京/杭州

社招5年以上云智能集团

1、稳定性保障与体系建设：负责大模型服务平台及人工智能产品的稳定性保障工作，通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理：主导大规模分布式系统及高并发场景下的流量治理方案设计与实施，包括弹性扩缩容以及熔断、限流、降级等容灾策略，确保业务连续性与鲁棒性。 3、新环境部署：在新环境上进行一整套推理系统及其上下游依赖的部署和运维，负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应：参与OnCall值班，快速定位并解决生产环境故障，主导重大事件应急响应与复盘；建立故障快速恢复机制，推动根因分析及长效改进措施落地。 5、运维自动化：优化现有部署、监控及维护流程，推动运维自动化与平台化建设，提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

更新于 2026-01-07北京|杭州

阿里云智能-百炼稳定性工程专家/高级工程师-北京/杭州

社招5年以上

更新于 2026-04-03北京|杭州