logo of itigerup

老虎国际SRE工程师

社招全职5年以上运维地点:北京状态:招聘

任职要求


1、至少5年以上互联网公司运维相关经验;
2、熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;
3、熟悉Nginx,Zookeeper, Kafka,RocketMQ等常用WEB中间件的维护与使用;
4、有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;良好的troubleshooting思路与经验,能够快速解决线上事故;
5、至少能掌握Java/Python/Shel/Go等一至两种语言,有项目开发经验者优先;
6、熟悉SRE运维体系者优先;熟悉高并发高可用微服务系统架构运维者优先。

工作职责


1、负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;
2、参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;
3、负责线上重大问题排查,紧急事故处理,后续事故分析与优化;
4、负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;
5、负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;
6、建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进。
包括英文材料
JVM+
GC+
Java+
Nginx+
ZooKeeper+
Kafka+
RocketMQ+
Web+
中间件+
Python+
Go+
高并发+
高可用+
微服务+
相关职位

logo of bytedance
社招8VDM1

团队介绍:字节跳动推荐架构团队,负责字节跳动旗下相关产品的推荐系统架构的设计和开发,保障系统稳定和高可用;负责在线服务、离线数据流性能优化,解决系统瓶颈,降低成本开销;抽象系统通用组件和服务,建设推荐中台、数据中台,支撑新产品快速孵化以及为ToB赋能。 1、负责推荐业务的资源规划与重点活动保障; 2、负责推荐业务容灾体系建设与容灾能力提升; 3、负责推荐业务变更效率提升与质量优化,支撑业务高效迭代; 4、负责推荐业务硬件亲和性分析,为业务提供高ROI硬件选型; 5、负责推荐业务相关运维平台设计与研发,支撑超大规模集群的自动化运维。

更新于 2019-08-27
logo of ly
社招

工作职责 1. 作为稳定性owner,负责核心服务可靠、稳定、高效运行 2. 负责相关服务架构审核、配置管理、业务监控、容量规划、性能优化、应急响应等 3. 负责分析相关系统的稳定性、性能问题,提出优化方案并推动实施 4. 负责突发事件管理,问题跟踪与管理;能够运用主机监控、日志分析、APM、trace等工具进行复杂问题定位 5. 参与日常值班轮转,响应和处理严重、复杂应用故障 6. 参与设计、开发提高服务稳定性、工程效率、资源效率的相关运维自动化工具与平台

更新于 2025-01-06
logo of ly
社招2年以上

团队介绍: 我们始终秉承着7*24保障为先的信念,安全、服务、稳定是我们坚守的目标,让系统可用率达到99.99%是我们永恒的使命!团队秉承简单、开放、匠心的文化,齐心协力,内外赋能,一起为梦想而努力! 1)团队年轻化,管理扁平化,事情推动效率高; 2)团队的学习分享氛围好,成长空间大、成长快; 在这里你能获得: 一群真诚、友善的伙伴, 一个能共同成长,在一起,向前冲的团队, 一个可以把前沿技术实践到工作中的机会, 这里既有技术成长、又有业务成长,这里没有甩锅、没有PUA! 岗位职责: 1. 负责同程旅行核心服务可靠、稳定、高效运行; 2. 负责相关服务架构审核、配置管理、业务监控、容量规划、性能优化、应急响应等; 3. 负责分析相关系统的稳定性、性能问题,提出优化方案并推动实施; 4. 负责突发事件管理,问题跟踪追查;能够运用主机监控、日志分析、APM、trace等工具进行复杂问题定位; 5. 参与日常值班轮转,响应和处理严重、复杂应用故障; 6. 参与设计、开发提高同程旅行稳定性、工程效率、资源效率的相关运维自动化工具与平台。

更新于 2023-03-14
logo of hypergryph
校招程序技术类

1.负责游戏和平台业务的技术保障工作,包括但不限于日常变更、容量规划、故障处理、重大活动保障; 2.推动提升业务的可靠性、可扩展性以及性能优化,保障业务SLA; 3.积累SRE最佳实践,为业务架构设计与组件选型提供指导,输出标准技术文档; 4.负责管理和维护基础设施,能够通过自动化提高运维效率。