logo of aliyun

阿里云阿里云智能-云原生Agentic AI架构师 / Cloud-Native Agentic AI Architect-杭州

社招全职10年以上云智能集团地点:杭州状态:招聘

任职要求


基础条件
● 计算机科学或相关专业本科及以上学历
● 8年以上云计算或基础设施架构经验,精通云原生技术栈
● 有主导复杂云原生架构方案设计并在生产环境成功落地的完整经历

核心技术能力
● 云原生架构功底:深入理解KubernetesDockerService Mesh等核心技术原理,有大规模集群环境下的架构设计与治理经验
● IaC与工程自动化:精通Infrastructure as Code理念与实践(TerraformPulumi、Crossplane等),有将云操作全面代码化、API化的实战经验
● SRE与可观测性:有大规模云服务的SRE实践经验,精通可观测性技术栈(Prometheus、Grafana、OpenTelemetry等),能设计面向AI工作负载的高可用方案
● 成本治理能力:有FinOps实践经验,理解云资源成本结构,有通…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位定位
当AI Agent开始7x24小时自主运行研发任务,云原生基础设施的使用方式正在被彻底重新定义。我们需要一位能为Agent原生时代设计全新用云范式的架构师。
您不是从零构建云原生底座,而是站在已有的云原生基础设施之上,将云服务、商业化链路、资源调度、稳定性运维等复杂能力,以Agent友好的方式重新封装为高效、可编排、成本最优的标准化接口与工具链。您的核心使命是:让AI Agent能像最优秀的工程师一样,通过IaC、CLI、API自主操控云基础设施,并为7x24小时托管式Agent原生研发模式提供强大的Harness架构与配套的研发流水线。
这是一个定义"Agent如何用云"的前沿架构角色——您将在AgentSRE、FinOps、IaC-as-Agent-Interface等方向上探索行业最佳实践,让基础设施从"人用的工具"进化为"Agent的原生操作系统"。

核心职责
Harness架构升级与治理
● 设计并持续演进面向Agent原生研发模式的Harness架构——定义Agent任务的编排框架、执行沙箱、权限边界与生命周期管理,支撑7x24小时托管式Agent自主运行
● 构建Agent原生的研发流水线与工具链:从代码生成、构建测试、部署发布到线上运维,全链路具备Agent可调用、可观测、可回滚的能力
● 建立Harness架构的治理机制——Agent行为审计、策略门控(Policy-as-Code)、异常熔断与人工接管逻辑,确保自主运行的安全性与可控性
云原生基座封装与高效用云
● 将已有云原生基础服务(计算、存储、网络、中间件等)封装为Agent友好的标准化接口——IaC模块、CLI工具集、声明式API,让Agent能通过自然的工具调用方式完成基础设施操控
● 设计"CLI Anything"能力层:将云平台的运维操作、配置变更、环境管理等全面CLI化和API化,消除Agent操作云资源的认知壁垒与操作门槛
● 主导云服务商业化链路的封装与优化——资源开通、计量计费、多租户隔离、SLA管理等能力的标准化接入,让Agent能自主完成从资源申请到交付的全流程
资源预测与成本治理(FinOps)
● 构建AI驱动的云资源预测与规划体系——基于业务负载模式、Agent任务调度特征,实现资源需求的智能预测与提前调度
● 主导FinOps体系建设:建立多维度成本归因、实时用量监控与预算预警机制,将成本可见性深入到每个Agent任务和每条业务线
● 设计并落地成本优化策略——弹性伸缩策略优化、预留实例与按需实例的智能组合、闲置资源自动回收、跨可用区调度,在保障SLA的前提下持续降低用云成本
稳定性与可观测性体系
● 建立面向Agent原生运行环境的AgentSRE体系——定义Agent服务的SLO/SLI,构建Agent任务执行的全链路可观测性(执行日志、资源消耗、异常检测、性能剖析)
● 设计Agent驱动的智能运维能力:异常自动诊断、故障自愈、容量自动调整,让Agent不仅是"被运维的对象",更是"参与运维的主体"
● 建立云上应用的容灾与高可用方案,覆盖多可用区部署、故障切换、数据一致性保障,确保核心业务的持续稳定运行
组织建设与技术文化
● 搭建兼具云原生工程深度与Agent系统理解力的架构团队,主导核心人才引进与梯队建设
● 推动Agent原生研发范式在团队和公司的落地——建立AGENTS.md等标准化协作规范,让Agent成为研发流程中的一等公民
● 营造追求工程卓越、拥抱自动化与创新的技术文化,积极参与云原生与Agent原生工程领域的行业交流
包括英文材料
学历+
Kubernetes+
Docker+
Service Mesh+
系统设计+
Terraform+
Pulumi+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1.负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2.负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3.负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4.负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5.负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-01-05深圳|杭州
logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1. 负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2. 负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3. 负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4. 负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5. 负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-02-11杭州
logo of aliyun
社招3年以上云智能集团

1、负责AI原生应用的全栈开发,包括对话/Agent交互界面、后端服务架构、数据建模与持久化方案设计; 2、设计与构建Agent系统,涵盖多Agent协作、工具调用(MCP/Function Calling)、长期记忆管理、Context Engineering及自主规划与执行; 3、设计规模化的外部数据接入方案——包括MCP数据源集成、实时API编排、结构化数据查询、知识图谱、向量检索等,让Agent能可靠地获取和利用外部世界的信息; 4、建设AI应用的质量与安全基础设施——评测体系(Eval)、可观测性(Tracing/Logging)、安全护栏(Guardrail)、运行时行为约束与纠偏(Harness),构建持续迭代闭环; 5、设计与实现API智能路由——将长程复杂任务拆解为子任务,根据任务特征(复杂度、模态、延迟要求等)动态选择最合适的模型,在质量、效率和成本之间取得最优平衡; 6、紧跟基础模型能力演进,将新能力(长上下文、原生工具调用、模型推理等)快速转化为产品特性。

更新于 2026-03-26上海
logo of aliyun
社招3年以上云智能集团

1. 前沿模型架构研发:负责大模型前沿架构(如 Linear Attention、原生多模态、MoE 等)的底层工程实现。深度参与算法底层逻辑重构,将前沿理论模型转化为高性能的训练与推理模型。 2. 复杂算子优化与系统级重构:针对非标准及新型算法架构,设计并实现深度定制化的分布式算子。通过重构核心计算组件,解决超大规模模型在异构算力集群下的瓶颈问题,打造具备极致响应速度和吞吐能力的推理后端。 3. 大规模并行策略与资源调度:设计并落地匹配复杂架构的计算并行策略(TP/PP/EP/CP)及精细化显存管理方案。持续优化大规模集群通信机制,降低通信开销,确保在算力池中实现模型的高效、稳定运行。

更新于 2026-04-03杭州