菜鸟菜鸟-高级Java研发工程师(SRE领域方向)-质效与基础架构部(杭州)
任职要求
必备条件: 1、计算机或相关专业本科及以上学历,5年以上Java后端开发经验。 2、扎实的技术基础: 精通Java语言及生态,深入理解JVM、多线程、网络编程、性能调优。熟练掌握Spring Cloud、Dubbo等主流微服务框架。 3、丰富的系统设计能力: 具备复杂分布式系统的架构设计能力,熟悉高可用、高并发、可扩展性设计方案,有处理过大规模数据或访问量的系统经验。 4、强烈的产品意识: 不止于编码,能站在用户角度思考,具备将技术能力转化为平台产品功能的强烈意愿和能力。有技术产品(ToB/ToD)开发经验者优先。 5、对基础技术有热情: 对SRE、DevOps、监控、成本优化等领域有浓厚兴趣和一定理解,有相关平台(如Prometheus、SkyWalking、Jenkins、成本分析工具)使用或开发经验者优先。 6、具备良好的沟通协作能力和owner意识,能主动推进项目落地。 优先考虑: 1、有大型互联网公司基础架构、中间件、SRE、监控、效能平台等部门开发经验者。 2、有实时数据计算、大数据处理、任务调度等相关项目经验。 3、有强烈的技术自驱力和学习能力,对新技术充满好奇心。
工作职责
1、负责菜鸟SRE平台的核心模块设计、开发与迭代,重点包括但不限于: - 实时核对监控系统: 构建低延迟、高可用的海量实时数据核对与监控系统,实现物流全链路的秒级故障发现与自愈。 - DevOps平台: 开发下一代CI/CD流水线、环境管理、自动化运维等产品功能,提升全球研发团队的交付效率与质量。 - FinOps平台: 参与建设集团级的成本可视化与优化平台,通过资源分析、成本分摊、优化建议等产品化手段,驱动技术降本。 2、产品化与赋能: 深入理解内部用户(SRE、开发、运维)的痛点,将复杂的基础架构能力(如稳定性保障、成本优化、效率提升)抽象、封装成标准、易用的产品和服务,实现对全公司的技术赋能。 3、技术挑战攻坚: 解决在超大规模分布式系统、高并发实时数据处理、复杂业务场景下带来的技术难题,保障平台自身的稳定性、性能和可扩展性。 4、前瞻性与协作: 跟踪业界前沿技术(如eBPF、AIOps、Serverless等),与基础设施其他团队(如网络、存储、计算)紧密合作,共同规划和完善菜鸟的基础技术体系。
1.深入理解本地生活到店业务在业务保障领域的场景诉求,有机融合业务和技术,从运行稳定性、功能健壮性、性能容量等方面,基于公司的基础设施与中间件设计,探索并落地稳定性保障相关工作(容灾、容错、容量、应急快反),实现、优化业务保障相关产品和解决方案; 2.进行运维领域相关领域的探索,借助智能化的技术提升业务保障领域相关的能力和效率; 3.主导或参与业务保障相关技术平台的产品化、平台化建设,让技术具备更好的通用性和规模化复制能力; 4.通过技术影响力和团队协作能力横向推动本地生活到店业务的业务线、平台团队落地稳定性架构升级,并反向推动公司基础设施升级。
1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。
1、Site Reliability Engineer (SRE) 结合了软件和系统工程,致力于打造高扩展、高可用的分布式系统; 2、保障大数据/计算/云原生/分布式存储等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障; 5、推动提升服务的可靠性、可扩展性以及成本、性能优化,保障系统SLA;参与设计、实现能够保障线上大规模集群快速迭代的自动化平台; 6、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等。