字节跳动SRE运维工程师-游戏技术
任职要求
1、计算机科学、信息系统或相关领域的本科或以上学历; 2、具有至少3年运维或开发经验,熟练掌握Kubernetes (K8S)或其他容器编排解决方案; 3、对于主流的公有云有项目上手经验,如GCP/AWS/阿里云/火山云等; 4、了解CI/CD到IaC技术栈,具备…
工作职责
1、负责海内外游戏业务的部署,架构设计与实施,确保线上服务的良好运行; 2、负责日常游戏服务器的维护,包括服务器维护、线上环境变更、数据备份、监控及报警处理等; 3、快速响应并处理线上环境故障,识别并解决业务线上相关问题,协助分析与优化服务性能瓶颈; 4、不断完善游戏运维流程工具的效率和使用,如发布变更、监控、报警、日志、追溯、网络优化等; 5、维护游戏的关键SLA指标,确保在效率、成本、质量和安全性方面提供良好的运维支持。
1. 负责GitLab、SVN、Perforce等版本管理工具的日常维护,参与相关工具的二次开发和定制化功能开发。 2. 负责持续集成(CI)、持续交付(CD)流水线的设计、优化和自动化管理,推动DevOps最佳实践落地。 3. 参与并推动公司各类开发、测试工具链的集成与自动化流程建设,提升研发效率和交付质量。 4. 参与应用日志采集、监控与报警系统的搭建、维护和优化,保障系统稳定性与安全性。 5. 协助开发团队解决代码管理、分支合并、冲突解决等相关问题,提升团队协作效率。 6. 编写和维护相关技术文档,制定运维和开发流程规范,协助团队成员培训与技术支持。 7. 关注并评估业界新技术,推动运维体系的持续改进和创新。
运维研发工程师(SRE)是指用软件工程的方法来管理系统、解决问题并实现运维自动化,以减少琐事,提高服务的可用性。 包括但不限于如下工作内容: 1. 负责网易互娱业务的运维工作,如蛋仔派对、第五人格、UU加速器、一梦江湖、王牌竞速等在线业务,以及公司内部在研项目。; 2. 根据不同游戏的服务架构、性能需求以及业务情况,为游戏服务端设计选用基础运行环境(包括服务器、虚拟化、云服务、网络、数据库等),为游戏提供可控成本下高质、高效的运维服务; 3. 建立与监控各类运维指标,定制数据分析标准; 4. 联合产品部门,根据游戏和基础环境情况及时发现问题、优化技术架构,提升用户体验; 5. 参与前沿开源软件、虚拟化、数据库、WEB服务的深入研究,结合业务落地技术方案。

1.负责公司核心业务系统的各类线上资源维护、监控告警以及应急响应,保障各项服务7*24小时高效稳定运行 2.负责开发和维护自动化运维工具和平台,覆盖部署、监控、日志分析等全生命周期管理 3.负责容量规划、资源调度和混沌工程建设,确保各系统能够应对各类灾难和高并发流量 4.负责系统安全策略的实施与优化,构建零信任安全架构,确保操作审计高覆盖率 5.负责与开发团队紧密协作,推动DevOps文化和SRE理念,做好流程和规范建设,提升开发与运维的协作效率