logo of bytedance

字节跳动高级系统工程师(监控方向)-Data(杭州)

社招全职2年以上A181798地点:杭州状态:招聘

任职要求


1、大学本科及以上学历,计算机相关专业,两年以上相关开发项目经验;
2、熟悉Linux环境开发,具备良好的编程能力,熟练Go/Python/Java中至少一门程序开发语言,掌握至少一个常见后端Web框架(如Django/Flask/Gin/Spring等)及其设计原理;
3、深入理解Linux操作系统,精通基础协议T…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责公司超大规模监控平台的架构设计与开发,打造全球领先的基础资源监控系统;
2、负责监控系统各核心组件的研发,调优,海量时序数据存储的研发,优化,运维;
3、负责监控系统的平台化建设,优化用户各类自定义监控告警需求;
4、构建基础运维的核心监控控制面,提升自动化运维平台诊断效率;
5、负责智能运维监控方向的演进,挖掘基础监控的数据,构建智能监控模型(AIops)。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
Web+
Django+
Flask+
Gin+
还有更多 •••
相关职位

logo of mi
社招5年以上A18742

1. 主导大模型系统架构设计: 负责RAG系统的整体架构设计,包括存储层、检索层、推理层与缓存层的技术选型与实现。 构建高可用、低延迟的分布式推理服务框架,支持向量数据库集成(如Milvus、Elastic)、知识库管理与多模态检索优化。 设计并实现Agent工作流编排框架,支持工具调用(MCP协议)、任务规划与自动化执行。 2.模型部署与性能优化: 负责大模型(LLM/VLM)的本地化部署、量化压缩、动态批处理与推理加速,优化GPU/CPU异构算力利用率。 3. AI服务平台开发: 基于Java/Go/Python构建高并发、可扩展的AI微服务,与现有业务系统深度集成,实现模型训练-部署-监控的全链路管理。 4.技术领导与跨团队协作: 指导中级工程师,制定技术方案,并主导技术攻关。与产品、算法、基础设施团队协作,定义需求并推动工程落地。

更新于 2025-09-19武汉
logo of thead
社招5年以上技术-芯片

我们正在寻找一位兼具后端开发功底与系统级视野的优秀工程师,加入我们致力于构建高性能软件研发基础设施的技术团队。 在这里,你将深度参与企业级编译系统、构建流水线与自动化发布平台的建设,专注于提升大规模项目的构建效率、稳定性和可复现性。如果你热爱底层技术、关注编译性能与构建可靠性,并希望在复杂工程场景中打造高效的研发基座,这正是为你准备的舞台! 你将负责: 1. 设计与维护高性能 CI/CD 构建平台 基于 Jenkins、GitLab CI 或自研系统,搭建支持多语言(C/C++/Go/Python)的自动化构建流水线;优化构建缓存、依赖管理与并行编译策略,显著缩短构建时间。 2. 构建和优化编译环境与工具链 管理和维护基于 GCC、Clang/LLVM的标准化编译环境,支持不同版本共存与按需切换;定制编译参数、警告规则与静态分析流程,提升代码质量与一致性。 3. 推动构建可重复性与确定性编译(Reproducible Builds) 实现构建过程的环境隔离(Docker/Singularity)、依赖锁定与输出校验,确保“一次构建,处处一致”,满足安全审计与发布合规要求。 4. 性能分析与构建加速优化 使用 time, strace, perf, Bear, compile_commands.json 等工具分析编译瓶颈;集成分布式编译方案(如 Incredibuild、distcc、sccache)或增量构建机制,提升大型项目编译速度。 5. 构建全链路可观测性系统 搭建覆盖构建耗时、失败率、资源消耗的监控体系,集成 Prometheus + Grafana;实现构建日志聚合、错误自动归因与趋势预警。 6. 推进基础设施即代码(IaC)与平台化能力建设 使用 Terraform/Ansible 自动化部署构建节点与编译集群;通过 API 和 Web 控制台提供自助式构建服务,提升研发效率。

更新于 2026-01-19上海
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳
logo of aliyun
社招3年以上云智能集团

阿里云 AI 中间件团队致力于构建面向 AI 原生时代的新型基础设施,打造支撑万亿级 token 调用的高可用、高性能、可治理的 AI Agent 运行底座。我们主导开源项目 AgentScope(AI Agent 开发框架)、Higress(AI 网关)、Nacos(AI Registry),在继承 Dubbo、Nacos、Higress、Sentinel 等经典中间件能力基础上,为阿里内部 Qwen-APP、百炼、PAI 等核心 AI 产品提供统一AI基础设施。 1. 设计并研发 AI Agent 核心中间件,包括但不限于 Agent 开发框架 AgentScope 、Agent/MCP 注册中心、Prompt/Skills 配置中心、AI Memory 服务等,构建端到端的 Agent 开发、部署与运行体系; 2. 负责 AI Agent 的工程化落地与治理,构建 AI Agent 的效果与高可用治理体系,实现灰度发布、效果评估、安全拦截、故障自愈、成本监控等能力,确保 Agent 在大规模调用下的稳定性、可控性与经济性; 3. 负责下一代 AI 原生应用架构的演进,主导 AI 中间件的整体设计与核心功能研发,探索 AI Agent 与大模型领域的前沿方向,推动 AI 原生应用架构的技术标准制定与社区影响力建设,并促进其在内外部的大规模落地; 4. 推动开源与产品双轮驱动,通过 Higress、AgentScope、Nacos 等项目扩大社区影响力,同时将前沿能力沉淀为 MSE、AI 网关等商业产品,支持内外部客户大规模落地。

更新于 2026-02-11杭州