logo of xiaohongshu

小红书可观测性技术研发-基础技术

社招全职3年以上后端开发地点:上海 | 杭州状态:招聘

任职要求


全日制统招本科及以上学历,3 年及以上计算机相关工作经验;
精通 JavaGo 语言,熟悉并发编程、分布式系统、性能优化等,有扎实的编程基础;
熟悉云原生可观测性体系的相关产品及组件,包括不仅限于:OpenTelemetry、CAT、SkyWalking、Prometheus、VictoriaMetrics、ELK、ClickHouse、eBPF 等,了解 Kubernete…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责可观测体系研发工作,围绕 Metrics、Logging、Tracing、Profiling 四大支柱,从全栈领域展开可观测基础能力建设;
负责监控平台、全链路追踪、日志服务、计算引擎(流式分析、实时告警、时序检测等)、告警、eBPF 等可观测相关技术架构及产品设计;
保障可观测相关基础服务,在高并发环境下的高性能、高可用,推动技术、产品持续优化迭代;
落地 AI Infra 可观测、AI 应用可观测、可观测 AI+ 等相关技术,提高 AI 场景稳定性以及传统可观测产品使用体验和效率。
包括英文材料
学历+
Java+
Go+
分布式系统+
OpenTelemetry+
Prometheus+
ClickHouse+
还有更多 •••
相关职位

logo of bytedance
社招A126545

团队负责数百万节点的云原生基础设施,支撑公司的所有产品线。目前在 kubernetes 集群管控技术,运行时资源优化,多云多集群,云原生基础设施稳定性保障方面都会比较深入的技术积累,并且开源有 kubebrain, katalyst 等云原生基础技术相关项目,团队持续围绕以资源并池,资源弹性为中心的基础技术研发和突破。 岗位职责 1、构建超大规模的 kubernetes 集群,推进系统架构演化和设计,持续优化管控系统在大数据/ML等场景下的性能和稳定性; 2、定义 kubernetes 集群的 SLO,持续优化端到端的延迟,分析性能瓶颈,输出解决方案,并推动上线和落地; 3、持续构建和完善 kubernetes 集群的可观测性,提升问题定位效率,并且建立可观测性数据仓库,通过数据驱动的方式优化集群性能。

更新于 2023-12-22北京
logo of bytedance
社招A47956

团队负责数百万节点的云原生基础设施,支撑公司的所有产品线。目前在 kubernetes 集群管控技术,运行时资源优化,多云多集群,云原生基础设施稳定性保障方面都会比较深入的技术积累,并且开源有 kubebrain, katalyst 等云原生基础技术相关项目,团队持续围绕以资源并池,资源弹性为中心的基础技术研发和突破。 1、构建超大规模的 kubernetes 集群,推进系统架构演化和设计,持续优化管控系统在大数据/ML等场景下的性能和稳定性; 2、定义 kubernetes 集群的 SLO,持续优化端到端的延迟,分析性能瓶颈,输出解决方案,并推动上线和落地; 3、持续构建和完善 kubernetes 集群的可观测性,提升问题定位效率,并且建立可观测性数据仓库,通过数据驱动的方式优化集群性能。

更新于 2023-12-15杭州
logo of lingxi
校招灵犀互娱2026

灵犀互娱监控平台团队负责游戏前后端的稳定性和性能保障,致力于打造业界领先的一站式游戏可观测性解决方案。我们欢迎对监控与游戏技术感兴趣的你加入,在真实的大规模游戏场景中快速成长。 你将负责: 1、参与设计、开发、迭代游戏可观测性平台,为游戏项目提供“一站式数据视角”,帮助团队更快发现问题、更稳上线游戏; 2、动手解决真实线上场景中的稳定性与性能问题,不断打磨监控平台的能力边界,探索更高效的监控与分析方式; 3、持续学习和尝试业界前沿的可观测性技术与实践,为平台引入更先进的监控方案,让平台始终保持活力; 4、支持可观测性在游戏项目中的落地,与游戏开发团队紧密合作,用数据守护游戏的流畅运行和玩家体验。

更新于 2025-11-18广州
logo of thead
校招平头哥秋季202

我们正在寻找充满激情、具备技术前瞻性的应届毕业生,加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师,你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化,融合人工智能技术,推动软件研发流程的自动化、可观测性与自愈能力全面提升。 你将参与: 1. 构建智能CI/CD流水线:与研发团队紧密协作,设计并开发高可用、可扩展的持续集成与持续交付平台;探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景,提升研发效率与交付质量。 2. 开发智能化自动化运维工具:使用Python、Go等语言开发自动化脚本与工具,实现基础设施即代码(IaC);结合AI技术,探索日志异常检测、自动化根因分析等AIOps能力,实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统:参与构建覆盖全链路的监控体系,集成Prometheus、Grafana、ELK等技术栈;引入时序预测模型与异常检测算法(如LSTM、Isolation Forest等),实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践:参与机器学习模型的训练流水线(ML Pipeline)与模型部署(Model Serving)基础设施建设,探索模型版本管理、A/B测试、监控与回滚机制,助力AI能力高效落地。

更新于 2025-08-04上海