阿里云阿里云智能-研发专家-云内可观测平台-杭州/北京

社招全职5年以上云智能集团2025-09-29地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.本科及以上学历，计算机相关专业，5年以上运维开发/系统架构经验，有大型分布式系统设计开发和稳定性经验优先。
2.出色的编程能力，精通C/C++，熟悉Linux系统，具备扎实的计算机系统基础，对高性能/低开销软硬件有经验/成就者优先
3.对…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与建设阿里云内统一的智能全景可观测平台。目前该平台已服务阿里云多个主流云产品，覆盖超百万节点，日产PB+数据，是支撑云的性能乃至稳定性的基础设施。
2. 设计实现云内可观测场景的高效存储模型/系统和先进高性能查询分析引擎。为飞天系统乃至云内产品提供极致性价比和有竞争力的功能，保障核心业务的稳定性和提升用户体验
3. 结合传统的智能算法和现代大模型技术，通过对海量可观测数据的分析和垂直领域大模型的建设以及自然语言界面的链接，持续优化经典和现代AIOps效果，发现Insight，推动云内开发运维的范式跃迁
4. 设计开发云内可观测平台的运维自动化系统和工具流程的设计和开发，提升运营平台的效率与智能化水平，保障本平台7x24小时高可用

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

分布式系统+

C+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-专有云平台智能升级研发专家-专有云（北京/杭州）

社招5年以上云智能集团

1，平台升级智能化：专有云平台“热升级数字人（智能体）”的研发与落地。结合可观测数据，建立AI智能体的SLI/SLO/SLA健康管理体系，通过巡检、诊断、预案与自愈等自动化手段，持续提升升级质量与自动化自主化水平，切实降低升级成本。 2，智算云产品升级体系设计：负责专有云及智算基础设施（GPU/NPU集群、超节点服务器等）的整体升级模式与架构体系设计。推动云产品从传统的“资源交付”向“任务式交付”与“AI Native智能化”转型，构建适应Agentic时代的高可用、高弹性升级底座。 3，AI Native全链路升级可观测体系建设：构建面向大模型与AI Agent的统一升级可观测平台（Metrics、Log、Event、Trace）。突破传统监控瓶颈，实现从底层算力资源、云平台组件到上层AI智能体（Agent）决策链路的端到端可观测，性能分析，精准定位升级过程中的性能瓶颈与异常根因。 4，前沿技术探索与架构演进：保持对AI领域（如多智能体协作、Deep Research、Agentic Cloud等）及云原生技术前沿的高度敏感。负责将业界新的技术理念、论文成果或开源项目转化为可落地的技术方案，持续推动团队技术栈的迭代与架构的长期演进。

更新于 2026-06-24北京|杭州

阿里云云智能-IaaS集成与研发专家/高级专家-专有云（存储方向）

社招5年以上云智能集团

1. 负责智算高性能存储系统架构设计与开发，面向AI训练场景的高性能并行文件系统模块开发，设计多级元数据服务架构，支撑海量文件与高吞吐数据流。 2. 软硬件定义，机型设计，构建存算协同机制，实现GPU Direct Storage、KV Cache/Share，不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全，通过分布式强一致性、同/异步复制提升数据可靠性，设计系统自愈能力应对磁盘/节点异常，增强系统可观测和易运维能力，并通过测试与故障注入得到验证。

更新于 2026-07-08北京|杭州

阿里云智能-应用研发专家（金融智能体）-（新金融行业线）北京/杭州

社招5年以上云智能集团

1. Long-Horizon Agent 核心架构：设计并落地面向金融场景的长程智能体系统，涵盖多步推理（CoT/ToT）、计划-执行-验证-重规划循环、跨会话状态持久化与经验累积，使智能体能够自主完成数小时乃至数天跨度的复杂金融业务任务。 2. Agent 运行时与编排引擎：构建 Agent Harness 层——支持 Agent Loop（ReAct/Reflection 循环）与 Graph-Native 有状态图编排（Nodes/Edges/Cycles、条件路由）两种范式，内置持久化层实现断点恢复、Human-on-the-loop 审批与轨迹回溯；设计 Agent 沙箱与隔离执行环境；支撑生产级多智能体协作与大规模并发弹性伸缩。 3. 上下文工程与记忆系统：设计工作上下文管理（压缩、摘要、窗口调度）与持久化记忆架构（向量检索、结构化经验存储），解决 "Lost in the Middle" 退化和跨 Session 状态断裂问题，保障长程任务执行质量。 4. 工具生态与 MCP 协议集成：设计 Tool-Use 框架与 Model Context Protocol 接入层，实现金融领域工具（行情、研报、合规检查、交易执行等）的标准化注册、动态发现与安全调用；定义清晰的 SDK/API 接口供客户侧二次开发与生态扩展。 5. Agent 评测与可观测：构建 Agent 评测体系——覆盖规划能力、工具调用可靠性、多轮交互一致性、长程记忆连续性等核心维度；建设 Agent 全链路 Tracing 与运行时可观测平台，支撑快速定位和修复 Agent 行为异常。 6. 新一代知识库（知识编译）：设计以 LLM 为编译器的智能知识库架构——摄入即整合，替代传统 RAG 的"查询时拼凑"模式，实现知识复利与持续增量更新，服务金融研报、合规文件等高密度知识场景。 7. 训推一体与模型服务：参与金融领域模型的微调、评测与推理服务建设，关注 Agentic RL 在金融任务上的应用，推动模型能力内化。 8. 金融级稳定性与合规：负责金融级 SLA 保障体系建设（容灾、降级、灰度、熔断），满足金融客户对高可用、数据安全与监管合规的严格要求。

更新于 2026-07-31北京|杭州

阿里云智能-MaxCompute研发专家-平台架构研发方向

社招5年以上云智能集团

1) 深度参与下一代多租户云数仓底座的构建，主导高可用、强隔离、可扩展的平台级系统设计。 2) 主导Open API体系、多租应用隔离、统一认证与访问控制等核心子系统研发，定义企业级数据平台的安全边界与服务边界； 3) 参与新一代数据通道协议的演进与落地，全面挑战高吞吐、低延迟、强一致下的数据流转极限； 4) 构建全链路可观测与稳态保障体系，推动平台实现“开箱即稳”，影响阿里千万核集群的稳定运行，定义下一代云原生数据仓库的工程范式。

更新于 2025-10-11北京|杭州