滴滴高级运维开发工程师(SRE)(J251223002)
任职要求
1,有较大规模在线业务运维、优化等工作经验; 2,熟悉Linux操作系统,计算机网络等,基础知识扎实; 3,Linux系统下熟练使用golang或Python、Shell等…
工作职责
1. 为滴滴在线业务的稳定性保驾护航,持续做好业务的运维管控和熵增治理,在应急响应、容量管理、风险防范等方面建设和落地完整的运维保障能力。 2. 为业务提供高效可靠的需求交付服务,持续提升运维实现的标准化和自动化能力。 3. 洞悉业务核心诉求,探索业界先进理念,持续提升研发效率和资源使用效率,创造业务价值。
字节跳动基础架构 SRE 团队负责支持公司各项业务的正常运转,包括处理紧急故障响应、保障业务连续性、产品可用性改进、性能&效率优化、变更管理、监控、容量规划、运维产品开发与管理等相关工作。SRE 前端团队与 SRE 业务团队密切配合,负责搭建基础架构SRE 统一的运维管理平台,以建设通用能力的方式支持各产品(技术组件)搭建理念一致、功能易用的运维分站,实现不同业务场景下的运维闭环。 1、参与应用开发管理、流程引擎、逻辑编排、UI 编排等方向的技术架构和研发; 2、负责搭建物料库、制定各类研发规范,构建统一、高效的前端研发流程; 3、参与公司运维工作的白屏化,自动化和智能化实践,为公司内部提供拥有极致体验的运维产品; 4、深度参与面向未来的下一代基础架构,构建云原生运维产品,为多种业务场景赋能。
1、负责支撑网易集团旗下云音乐、Loft、支付等互联网产品的运维工作(涵盖操作系统运维、系统运维、容器运维等多个层面的工作),帮助业务持续提升产品稳定性; 2、负责相关运维工具和平台研发,通过工具和平台将运维能力赋能给外部其他团队,帮助其他团队提升效率; 3、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量; 4、持续优化运维操作和流程,保障海量用户的互联网产品稳定运行。
1、保障公司短视频产品的直播重保平台等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。