logo of horizon

地平线基础服务高级运维工程师

社招全职5年以上软件序列地点:北京状态:招聘

任职要求


1. 本科及以上学历,计算机相关专业,具有5年左右基础服务运维相关工作经验
2. 具有良好的沟通能力和团队合作精神 ,有良好的责任心和积极主动性,具有很好的Owner意识
3. 掌握Linux操作系统、TCP/IP网络等服务相关工作原理,具有较好的Troubleshooting能力
4. 掌握LVS、HAProxy、Nginx、DNS、LDAP、API网关、Nightingale等服务的工作原理、设计部署、故障发现、性能优化和自动化运维管理等内容
5. 掌…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责公司基础服务日常运维工作,包括监控完善、流程规范、生产需求、SOP建设、OnCall响应、故障处理等工作
2. 负责公司基础服务稳定性保障工作,包括架构梳理、风险识别、优化改造、预案建设、数据备份、容量管理、性能优化等
3. 参与公司基础服务运维体系建设,包括自动化运维脚本、工具和平台,提升运维效率,并深入研究运维相关技术,优化和提升平台服务质量
包括英文材料
学历+
Linux+
TCP/IP+
LVS+
Nginx+
Nightingale+
Go+
Python+
Bash+
Ansible+
还有更多 •••
相关职位

logo of mi
社招5年以上A128510

1、负责小米汽车自动驾驶全球云端基础设施和基础服务的规划、建设、稳定性和可用性保障等; 2、负责小米汽车自动驾驶全球业务架构审核、系统监控、持续交付、应急响应、容量规划等; 3、负责小米汽车自动驾驶数据全流程合规和运维支持; 4、参与小米汽车全球混合合规云平台建设; 5、持续的创新和优化能力,提升产品整体质量,改善用户体验,控制系统成本。

更新于 2025-05-21北京
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳
logo of horizon
社招5年以上软件序列

1.负责智驾服务系统业务的日常运维、监控完善、生产需求、OnCall响应、故障处理等工作 2.负责智驾服务系统业务的架构梳理、风险识别、优化改造、稳定性保障和项目生产交付等工作 3.负责设计自动化运维平台,提升运维效率,深入研究运维相关技术,优化和提升平台服务质量

更新于 2026-03-25北京
logo of netease
社招3年以上网易职能

1、负责支撑整个部门的产品运维工作,包括Linux操作系统及基础服务如Nginx、Kvm、DNS、DHCP、ES等日常管理和维护; 2、负责排查处理linux下的各类故障告警,进行相关系统调优, 持续完善监控告警体系; 3、参与自动化运维工具和平台开发,提升自动化程度,减少人为操作风险;通过工具和平台将运维能力赋能给外部其他团队,提高整体效率; 4、负责业务产品的服务器系统层架构设计,实施和维护高可用性、高性能系统架构,确保服务稳定性,将可靠性作为系统设计的核心目标 5、与开发、网络等其他团队紧密协作,提供所需系统层面技术支持和解决方案; 6、持续优化运维操作和流程,建立和维护完善的技术文档,构建团队知识库,促进经验共享和知识传承; 7、关注业界前沿技术动态,通过新的运维技术和方法解决线上问题,提升团队运维质量。

更新于 2025-05-08杭州