logo of aliyun

阿里云阿里云智能-AI Infra可观测高级研发工程师-上海

社招全职3年以上云智能集团地点:上海状态:招聘

任职要求


1. 扎实的算法基础和良好的编码习惯,精通 C++JavaGoPython 中任何一门语言;
2. 在高性能数据结构、编码压缩、向量处理、异步IO、内存管理、多线程并发等领域有深入实践;有 Linux 内核、eBPF 开发经验更佳;
3. 理解分布式系统,包括调度、分布式锁、负载均衡等;
4. 加分项(AI相关)
    1)熟悉 LLM 应用框架、Prompt 设计、Agent 框架(如 LangGraph、Dify、AutoGen、Google ADK、工具链集成等)者优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


加入该岗位,你将参与构建面向 AI 时代的下一代可观测数据基础设施。
● 打造国内超大规模的可观测基础设施:通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对 AI 应用场景进行特定优化,提供智能、自动化数据分析服务;
● 深度参与 AI Infra 核心能力建设:从数据采集到智能分析,构建面向 LLM、Agent、多模态等前沿 AI 场景的统一可观测底座;
● 开源引领行业标准:主导 LoongCollector 开源项目,推动云原生可观测采集器成为 AI 时代的新一代 OneAgent。
具体职责包括:
1. 参与阿里云战略级产品 SLS 研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计;
2. 参与千万级实例、数百 PB 流量的云原生可观测采集器 LoongCollector/iLogtail 及管控系统开发,打造云上统一的 OneAgent 能力,服务于日志、指标、eBPF、主机监控、安全等多种场景;
3. 深度参与并打造高性能、高可靠的数据采集与管控系统,深入底层优化,提升网络、内存和 CPU 等关键资源的利用效率;
4. 面向 AI 应用构建高性能、安全的多模态数据处理与数据集管理平台,参与上下游 AI 生态建设。
包括英文材料
算法+
编程规范+
C+++
Java+
Go+
Python+
数据结构+
多线程+
Linux+
内核+
分布式系统+
大模型+
Prompt+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1. 定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2. 构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3. 超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。

更新于 2026-01-09杭州
logo of aliyun
社招8年以上云智能集团

负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1.定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2.构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3.超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。

更新于 2026-01-09杭州
logo of aliyun
社招8年以上云智能集团

1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-10杭州
logo of aliyun
社招5年以上云智能集团

Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、负责整个AI Agent平台面向C端用户功能的架构设计、技术选型和长期演进路线规划,确保架构的前瞻性、健壮性和可扩展性; 2、设计、实现并持续优化AI Agent平台的核心架构模块: •大规模弹性计算调度系模块:为平台提供一套能够管理海量Agent Runtime(容器/VM/Serverless)的计算资源调度框架,确保低时延、高效调度、安全隔离且成本可控。 •外部服务管理模块: 针对Agent对海量外部API的调用,构建一套稳定高效的接入和调度体系,包括智能API网关、可用性检查、弹性伸缩和全链路流量控制,确保该能力的稳定性不被第三方服务影响。 3、稳定性与SRE建设: 建立并领导平台的稳定性保障体系。推动全链路可观测性建设、容量规划和故障演练,将系统可用性提升至业界顶尖水平; 4、性能与成本优化: 深入分析系统瓶颈,主导性能优化项目。同时,建立准确的成本度量机制并持续优化平台成本,持续推动平台性能的提升和成本的下降; 5、参与AI Agent平台其他部分功能的架构设计与评审。

更新于 2025-09-19上海