小红书可观测性技术研发-基础技术

社招全职3年以上后端开发2026-07-19地点：上海状态：招聘

扫码手机上打开

任职要求

1、全日制统招本科及以上学历，3 年及以上计算机相关工作经验；
2、精通 Java 或 Go 语言，熟悉并发编程、分布式系统、性能优化等，有扎实的编程基础；
3、熟悉云原生可观测性体系的相关产品及组件，包括不仅限于：OpenTelemetry、CAT、SkyWalking、Prometheus、VictoriaMetrics、ELK、ClickHouse、eBPF 等，了解 Kuber…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责可观测体系研发工作，围绕 Metrics、Logging、Tracing、Profiling 四大支柱，从全栈领域展开可观测基础能力建设；
2、负责监控平台、全链路追踪、日志服务、计算引擎（流式分析、实时告警、时序检测等）、告警、eBPF 等可观测相关技术架构及产品设计；
3、保障可观测相关基础服务，在高并发环境下的高性能、高可用，推动技术、产品持续优化迭代，支撑国内和海外可观测架构设计、数据合规、基建稳定性保障等工作；
4、落地 AI Infra 可观测、AI 应用可观测、可观测 AI+ 等相关技术，提高 AI 场景稳定性以及传统可观测产品使用体验和效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

Go+

分布式系统+

OpenTelemetry+

Prometheus+

ELK+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - Anycast网络可观测性与入向路由调优技术

实习阿里巴巴研究型实

专注于Anycast系统的开发、设计和调优，具体职责包括： 1.基于机器学习的数据流量优化问题：利用机器学习技术分析和预测网络流量模式，从而优化数据在Anycast网络中的传输路径，提高网络的整体效率和鲁棒性。 2.基于机器学习的流量路由策略（learning to route）：使用机器学习模型动态调整流量路由策略，减少网络拥堵，提高数据包传输的成功率和速度。 3.基于机器学习的故障检测与恢复（learning to detect and recover）：开发机器学习算法实时监控Anycast网络中的节点和链路状态，及时检测异常并自动触发恢复机制，以保证服务的连续性和稳定性。 4.基于机器学习的资源分配（learning to allocate resources）：根据实时的网络负载和用户请求特点，动态调整服务器和网络资源的分配策略，以优化Anycast服务的性能和成本。 5.基于机器学习的网络安全策略（learning to secure）：利用机器学习算法识别并防御潜在的网络攻击和安全威胁，增强Anycast网络的安全性和可靠性。

更新于 2026-03-17杭州

基础设施与稳定性工程-Agent Infra 工程师-AIOps&AI可观测

社招5年以上技术类-开发

作为技术负责人，主导集团 AI 基础设施与稳定性领域核心系统的设计与开发。围绕两大方向展开工作：AIOps 智能运维——建设风险左移、故障事前检测及智能诊断恢复能力；AI 可观测——设计面向 AI 全栈（大模型推理、Agent 编排、RAG 管线、工具调用链路）的可观测体系，让 AI 系统本身"可监控、可调试、可度量"。 1. AI 全栈 Tracing：设计并落地覆盖 LLM 推理、Agent 编排、Tool-use 调用的端到端 Trace 体系，兼容社区开放标准并参与 OpenTelemetry 标准的设计； 2. 质量与安全度量：建设 AI 系统的核心度量体系，包括但不限于 Agent 性能和任务完成率等，驱动 AI 系统的持续质量改进，并建设 AI 场景专属的异常检测与根因归因能力； 3. AIOps 智能运维：基于大模型和 AI Agent 技术，建设覆盖风险左移（存量风险扫描、代码变更结构化分析、依赖拓扑治理）、事前检测（历史故障模式匹配、SOP 完备性推理）、故障诊断与快恢的全链路智能运维能力，打通变更上下文、服务拓扑、容量基线、SOP 知识图谱等多源数据底座，降低 MTTR。

更新于 2026-07-14杭州

可观测技术研发-国际化

社招3年以上后端开发

1、负责可观测体系研发工作，围绕 Metrics、Logging、Tracing、Profiling 四大支柱，从全栈领域展开可观测基础能力建设； 2、负责监控平台、全链路追踪、日志服务、计算引擎（流式分析、实时告警、时序检测等）、告警、eBPF 等可观测相关技术架构及产品设计； 3、保障可观测相关基础服务，在高并发环境下的高性能、高可用，推动技术、产品持续优化迭代，支撑国内和海外可观测架构设计、数据合规、基建稳定性保障等工作； 4、落地 AI Infra 可观测、AI 应用可观测、可观测 AI+ 等相关技术，提高 AI 场景稳定性以及传统可观测产品使用体验和效率。 1、Participate in the end-to-end R&D of the observability platform across all four pillars — Metrics, Logging, Tracing, and Profiling — building full-stack observability infrastructure capabilities. 2、Drive the technical architecture and product design of monitoring platforms, distributed tracing, log services, compute engines (streaming analysis, real-time alerting, time-series anomaly detection, etc.), alerting systems, and eBPF-based observability technologies. 3、Ensure high performance and high availability of observability infrastructure under high-concurrency conditions. Drive continuous technical and product iteration to support observability architecture design, data compliance, and infrastructure stability for the multi-region environments. 4、Develop and implement AI Infra observability, AI application observability, and AI-powered observability capabilities to improve stability in AI scenarios and enhance the usability and efficiency of traditional observability products.

更新于 2026-04-09新加坡

阿里云智能-AI可观测高级研发工程师-杭州

社招3年以上云智能集团

负责阿里集团、阿里云可观测平台建设，打造日增百PB级数据的实时数据分析平台。通过实时采集、数据建模等技术，实时处理来自千万设备的海量可观测数据，并进行智能分析与洞察。加入该岗位，您将有机会在国内超大规模的可观测平台上，构建面向各类AI应用场景的 AIOps 平台，打造新一代的 AI 基础设施。 1. 参与阿里云云监控数据链路建设，打造日吞吐PB级的高性能实时计算平台。负责海量监控指标与告警的采集、清洗、聚合与存储，保障秒级报警延迟与高可用性； 2. 深度参与云监控2.0战略落地，构建指标、日志、链路深度融合的统一可观测数据底座。打破数据孤岛，设计基于 UModel 的资源关联建模，实现从基础设施到应用层的全链路诊断能力； 3. 结合 AI/LLM 能力，研发新一代智能报警与根因分析引擎。针对 AI 训练集群等新场景，提供特定优化的监控解决方案，实现从“被动告警”到“主动预防”的跨越； 4. 负责云监控采集探针（Agent）及云产品接入层的建设。拥抱开源生态，支持 Prometheus、OpenTelemetry 等标准协议的无缝接入，打造多元、兼容的监控生态体系，，让云上百万企业能够零门槛接入并监控异构环境。

更新于 2026-06-25杭州