logo of bytedance

字节跳动SRE高级工程师-Data

社招全职3年以上A09552地点:杭州状态:招聘

任职要求


1、大学本科及以上学历,计算机相关专业;
2、三年以上运维开发项目经验;
3、掌握常用开发语言Shell/Python/Golang,熟悉业界主流技术,如Open-Falco…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、推进优化基础服务的响应延迟、性能问题,提升服务稳定性;
2、负责各种基础系统搭建和维护(DNS、LDAP等);
3、开发自动化运维平台,提高运维、开发协作效率,规范操作流程;
4、优化各种系统,减少重复性工作;
5、负责公司基础监控、报警系统开发与维护。
包括英文材料
学历+
Bash+
Python+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A59704

1、推进优化基础服务的响应延迟、性能问题,提升服务稳定性; 2、负责各种基础系统搭建和维护(DNS、LDAP等); 3、开发自动化运维平台,提高运维、开发协作效率,规范操作流程; 4、优化各种系统,减少重复性工作; 5、负责公司基础监控、报警系统开发与维护。

更新于 2025-03-22杭州
logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1.负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2.负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3.负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4.负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5.负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-01-05深圳|杭州
logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1. 负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2. 负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3. 负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4. 负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5. 负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-02-11杭州
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳