logo of bytedance

字节跳动高级系统工程师(监控方向)-Data(杭州)

社招全职2年以上A181798地点:杭州状态:招聘

任职要求


1、大学本科及以上学历,计算机相关专业,两年以上相关开发项目经验;
2、熟悉Linux环境开发,具备良好的编程能力,熟练Go/Python/Java中至少一门程序开发语言,掌握至少一个常见后端Web框架(如Django/Flask/Gin/Spring等)及其设计原理;
3、深入理解Linux操作系统,精通基础协议TCP/IPHTTP等协议,熟悉通信框架Thrift/gRPC/bRPC中的一种;
4、熟悉常见的消息中间件与存储软件,如:Redis/MySQL/Kafka/RocketMQ等;
5、能够独立完成工作,具有较强的综合分析问题及解决问题的能力;
6、具备良好的学习能力与判断力,对于新技术、前沿发展方向保持良好的积极性。

工作职责


1、负责公司超大规模监控平台的架构设计与开发,打造全球领先的基础资源监控系统;
2、负责监控系统各核心组件的研发,调优,海量时序数据存储的研发,优化,运维;
3、负责监控系统的平台化建设,优化用户各类自定义监控告警需求;
4、构建基础运维的核心监控控制面,提升自动化运维平台诊断效率;
5、负责智能运维监控方向的演进,挖掘基础监控的数据,构建智能监控模型(AIops)。
包括英文材料
学历+
Linux+
Go+
Python+
Java+
Web+
Django+
Flask+
Gin+
Spring+
TCP/IP+
HTTP+
gRPC+
中间件+
Redis+
MySQL+
Kafka+
RocketMQ+
相关职位

logo of shein
社招5年以上信息技术类

岗位一(linux内核方向) 我们正在寻找一位具有扎实 Linux 系统的高级系统工程师,加入我们的K8S团队。您将参与Linux 内核性能分析、系统级调优和故障排查,重点解决在线系统中的性能瓶颈问题。我们大规模的应用了 Kubernetes 混合部署,因此您需要具备一定的 Kubernetes 使用经验,能够在大规模集群环境中优化系统性能,确保系统的稳定性和高效运行。 作为一名高级系统工程师,您将有机会通过运用 eBPF 和其他技术手段来分析和调优系统,深入了解容器化环境及其与基础设施的集成。 深入分析Linux 系统内核(调度、网络、内存管理、磁盘 I/O 等),定位并解决线上系统中的性能瓶颈。 使用 eBPF 技术进行实时性能监控、故障排查,提升系统的可靠性和可扩展性。 分析并优化 Kubernetes 环境中的基础设施问题,特别是与容器网络、存储和调度相关的底层性能调优。 参与跨部门协作,帮助排查生产环境中的系统故障,提供高效、可行的解决方案。 参与 Kubernetes 集群混合部署的设计与优化,确保跨平台、多集群的稳定性和兼容性。 负责开发和定制 Kubernetes 生态相关的各类功能,如基于Cilium二次开发,开发各类Operater等。

更新于 2025-07-14
logo of mi
社招5年以上A18742

1. 主导大模型系统架构设计: 负责RAG系统的整体架构设计,包括存储层、检索层、推理层与缓存层的技术选型与实现。 构建高可用、低延迟的分布式推理服务框架,支持向量数据库集成(如Milvus、Elastic)、知识库管理与多模态检索优化。 设计并实现Agent工作流编排框架,支持工具调用(MCP协议)、任务规划与自动化执行。 2.模型部署与性能优化: 负责大模型(LLM/VLM)的本地化部署、量化压缩、动态批处理与推理加速,优化GPU/CPU异构算力利用率。 3. AI服务平台开发: 基于Java/Go/Python构建高并发、可扩展的AI微服务,与现有业务系统深度集成,实现模型训练-部署-监控的全链路管理。 4.技术领导与跨团队协作: 指导中级工程师,制定技术方案,并主导技术攻关。与产品、算法、基础设施团队协作,定义需求并推动工程落地。

更新于 2025-09-19
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30
logo of weibo
社招3年以上新浪&微博

1.负责微博主站搜索下点击模型的算法设计、训练与上线优化,通过用户点击行为提升搜索推荐精准度; 2.负责微博主站搜索引导方向的算法研究与实现,覆盖浏览页、搜索中间页等多场景的用户行为引导与转化模型; 3.主导推荐排序核心算法研发,包括多任务排序与序列建模、用户画像构建、内容语义理解与物料挖掘等模块的工程化落地 持续跟踪并应用 RAG、语义检索与生成式推荐等前沿技术,快速完成验证、迭代与性能调优; 4.对海量用户行为与内容数据进行深度挖掘与特征工程,发现优化机会并持续迭代改进; 5.协调跨团队协作,推动算法方案在大规模线上环境中的稳定部署、监控与持续优化。

更新于 2025-07-28