
货拉拉资深运维工程师(J18754)
社招全职3年以上地点:上海状态:招聘
任职要求
1、3年以上互联网行业相关工作经验,对以下一个或几个领域有深入理解:研发、运维、监控、技术支持;
2、了解互联网基础架构及相关组件;
3、对业务稳定性保障有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、组织的稳定性意识提升等;
4、有从0到1稳定性保障体系的建设和运营经验,包括流程化、规范化、标准化、工具化、产品化、持续改进等;
5、对问题有清晰的分析逻辑和全局思维,能提出有效的解决思路和方案,并有良好的沟通能力、结构化表达能力以及团队合作意识。
【加分项】
1、了解稳定性建设思路,对稳定性建设有体系化的理解;
2、有大规模互联网系统稳定性保障经验,主导或参与过稳定性治理项目;
3、了解AIOPS,并有相关实践经验。
工作职责
1、学习并了解公司业务流程,熟悉公司应用、系统、基础设施等各层技术的调用逻辑; 2、负责设计、落地稳定性保障解决方案,包括但不限于风险挖掘、线上问题管理、监控告警管理、生产变更管理、重大活动保障管理、稳定性文化机制等; 3、推进标准保障方案的工具产品化落地及运营,通过产品工具帮助稳定性工作提效降本。
包括英文材料
稳定性治理+
https://sre.google/sre-book/simplicity/
Software systems are inherently dynamic and unstable. A software system can only be perfectly stable if it exists in a vacuum.
https://sre.google/sre-book/table-of-contents/
Go through the complete table of contents of sre Google book, outlined are the key topics and insights covered in this essential resource for SRE professionals.
相关职位

社招3年以上技术
1、参与基础设施相关的配置标准化、资源交付、容量/成本管理、变更及相关应急工作, 2、践行运维规范、流程,并能将其工具化,提升效率与稳定性, 3、研究前沿技术,推动团队能力提升,建立高标准的可用性保障体系。
更新于 2025-07-22

社招5年以上技术类
1、负责应用系统的日常运维操作、故障排查; 2、负责应用系统的监控体系建设、告警体系建设、稳定性体系建设; 3、负责应用系统的CICD 流程优化及devops 平台建设; 4、负责应用系统的资源使用率优化及成本管控; 5、完成公司交办的其他工作。

社招8年以上技术类
1、负责应用系统的日常运维操作、故障排查; 2、负责应用系统的监控体系建设、告警体系建设、稳定性体系建设; 3、负责GPU 应用的容器化编排部署、K8S 集群的部署、维护、优化; 4、负责应用系统的资源使用率优化及成本管控; 5、完成公司交办的其他工作。