logo of aliyun

阿里云阿里云智能-AI可观测高级研发工程师-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 扎实的算法基础和良好的编码习惯,精通 GoPythonJavaC++Rust 中任何一门语言;
2. 熟悉异步IO、内存管理、多线程同步等技术,有Linux内核研究经验更佳;
3. 有分布式系统,包括调度、分布式锁、负载均衡等经验更佳;
4. 对技术有强烈的进取心,有较强的学习能力,保持对前沿技术的关注和学习;
5. 具有良好的沟通能力和团队合作精神、优秀的问题分析和解决能力。
6. 熟悉LLMPrompt 设计、Agent 框架(如 LangGraph、Dify、AutoGen、Google ADK、工具链集成等)者优先。
7.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责阿里集团、阿里云可观测平台建设,打造日增百PB级数据的实时数据分析平台。 通过实时采集、数据建模等技术,实时处理来自千万设备的海量可观测数据,并进行智能分析与洞察。加入该岗位,您将有机会在国内超大规模的可观测平台上,构建面向各类AI应用场景的 AIOps 平台,打造新一代的 AI 基础设施。
1. 参与阿里云云监控数据链路建设,打造日吞吐PB级的高性能实时计算平台。负责海量监控指标与告警的采集、清洗、聚合与存储,保障秒级报警延迟与高可用性;
2. 深度参与云监控2.0战略落地,构建指标、日志、链路深度融合的统一可观测数据底座。打破数据孤岛,设计基于 UModel 的资源关联建模,实现从基础设施到应用层的全链路诊断能力;
3. 结合 AI/LLM 能力,研发新一代智能报警与根因分析引擎。针对 AI 训练集群等新场景,提供特定优化的监控解决方案,实现从“被动告警”到“主动预防”的跨越;
4. 负责云监控采集探针(Agent)及云产品接入层的建设。拥抱开源生态,支持 Prometheus、OpenTelemetry 等标准协议的无缝接入,打造多元、兼容的监控生态体系,,让云上百万企业能够零门槛接入并监控异构环境。
包括英文材料
算法+
编程规范+
Go+
Python+
Java+
C+++
Rust+
多线程+
Linux+
内核+
分布式系统+
大模型+
Prompt+
还有更多 •••