logo of aliyun

阿里云阿里云智能-AI Infra可观测高级研发工程师-上海

社招全职3年以上云智能集团地点:上海状态:招聘

任职要求


1. 扎实的算法基础和良好的编码习惯,精通 C++JavaGoPython 中任何一门语言;
2. 在高性能数据结构、编码压缩、向量处理、异步IO、内存管理、多线程并发等领域有深入实践;有 Linux 内核、eBPF 开发经验更佳;
3. 理解分布式系统,包括调度、分布式锁、负载均衡等;
4. 加分项(AI相关)
    1)熟悉 LLM 应用框架、Prompt 设计、Agent 框架(如 LangGraph、Dify、AutoGen、Google ADK、工具链集成等)者优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


加入该岗位,你将参与构建面向 AI 时代的下一代可观测数据基础设施。
● 打造国内超大规模的可观测基础设施:通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对 AI 应用场景进行特定优化,提供智能、自动化数据分析服务;
● 深度参与 AI Infra 核心能力建设:从数据采集到智能分析,构建面向 LLM、Agent、多模态等前沿 AI 场景的统一可观测底座;
● 开源引领行业标准:主导 LoongCollector 开源项目,推动云原生可观测采集器成为 AI 时代的新一代 OneAgent。
具体职责包括:
1. 参与阿里云战略级产品 SLS 研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计;
2. 参与千万级实例、数百 PB 流量的云原生可观测采集器 LoongCollector/iLogtail 及管控系统开发,打造云上统一的 OneAgent 能力,服务于日志、指标、eBPF、主机监控、安全等多种场景;
3. 深度参与并打造高性能、高可靠的数据采集与管控系统,深入底层优化,提升网络、内存和 CPU 等关键资源的利用效率;
4. 面向 AI 应用构建高性能、安全的多模态数据处理与数据集管理平台,参与上下游 AI 生态建设。
包括英文材料
算法+
编程规范+
C+++
Java+
Go+
Python+
数据结构+
多线程+
Linux+
内核+
分布式系统+
大模型+
Prompt+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计。 2. 参与数据飞轮的建设,研发高质量数据集的清洗和存储、检索系统。 3. 参与Agent数据反馈回路建设,打磨Agent质量。 4. 参与建设Agent数据基座,研发稳定可靠的Agent运行时数据基础设施。

更新于 2026-02-11杭州|上海
logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计; 2. 参与数据飞轮的建设,研发高质量数据集的清洗和存储、检索系统; 3. 参与Agent数据反馈回路建设,打磨Agent质量; 4. 参与建设Agent数据基座,研发稳定可靠的Agent运行时数据基础设施。

更新于 2026-02-11杭州|上海
logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1. 定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2. 构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3. 超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。

更新于 2026-01-09杭州
logo of aliyun
社招3年以上云智能集团

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

更新于 2026-02-11北京