logo of aligenie

智能互联阿里云智能-云原生Agentic AI架构师 / Cloud-Native Agentic AI Architect-杭州

社招全职10年以上地点:杭州状态:招聘

任职要求


基础条件
● 计算机科学或相关专业本科及以上学历
● 8年以上云计算或基础设施架构经验,精通云原生技术栈
● 有主导复杂云原生架构方案设计并在生产环境成功落地的完整经历

核心技术能力
● 云原生架构功底:深入理解KubernetesDockerService Mesh等核心技术原理,有大规模集群环境下的架构设计与治理经验
● IaC与工程自动化:精通Infrastructure as Code理念与实践(TerraformPulumi、Crossplane等),有将云操作全面代码化、API化的实战经验
● SRE与可观测性:有大规模云服务的SRE实践经验,精通可观测性技术栈(Prometheus、Grafana、OpenTelemetry等),能设计面向AI工作负载的高可用方案
● 成本治理能力:有FinOps实践经验,理解云资源成本结构,有通…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位定位
当AI Agent开始7x24小时自主运行研发任务,云原生基础设施的使用方式正在被彻底重新定义。我们需要一位能为Agent原生时代设计全新用云范式的架构师。
您不是从零构建云原生底座,而是站在已有的云原生基础设施之上,将云服务、商业化链路、资源调度、稳定性运维等复杂能力,以Agent友好的方式重新封装为高效、可编排、成本最优的标准化接口与工具链。您的核心使命是:让AI Agent能像最优秀的工程师一样,通过IaC、CLI、API自主操控云基础设施,并为7x24小时托管式Agent原生研发模式提供强大的Harness架构与配套的研发流水线。
这是一个定义"Agent如何用云"的前沿架构角色——您将在AgentSRE、FinOps、IaC-as-Agent-Interface等方向上探索行业最佳实践,让基础设施从"人用的工具"进化为"Agent的原生操作系统"。

核心职责
Harness架构升级与治理
● 设计并持续演进面向Agent原生研发模式的Harness架构——定义Agent任务的编排框架、执行沙箱、权限边界与生命周期管理,支撑7x24小时托管式Agent自主运行
● 构建Agent原生的研发流水线与工具链:从代码生成、构建测试、部署发布到线上运维,全链路具备Agent可调用、可观测、可回滚的能力
● 建立Harness架构的治理机制——Agent行为审计、策略门控(Policy-as-Code)、异常熔断与人工接管逻辑,确保自主运行的安全性与可控性
云原生基座封装与高效用云
● 将已有云原生基础服务(计算、存储、网络、中间件等)封装为Agent友好的标准化接口——IaC模块、CLI工具集、声明式API,让Agent能通过自然的工具调用方式完成基础设施操控
● 设计"CLI Anything"能力层:将云平台的运维操作、配置变更、环境管理等全面CLI化和API化,消除Agent操作云资源的认知壁垒与操作门槛
● 主导云服务商业化链路的封装与优化——资源开通、计量计费、多租户隔离、SLA管理等能力的标准化接入,让Agent能自主完成从资源申请到交付的全流程
资源预测与成本治理(FinOps)
● 构建AI驱动的云资源预测与规划体系——基于业务负载模式、Agent任务调度特征,实现资源需求的智能预测与提前调度
● 主导FinOps体系建设:建立多维度成本归因、实时用量监控与预算预警机制,将成本可见性深入到每个Agent任务和每条业务线
● 设计并落地成本优化策略——弹性伸缩策略优化、预留实例与按需实例的智能组合、闲置资源自动回收、跨可用区调度,在保障SLA的前提下持续降低用云成本
稳定性与可观测性体系
● 建立面向Agent原生运行环境的AgentSRE体系——定义Agent服务的SLO/SLI,构建Agent任务执行的全链路可观测性(执行日志、资源消耗、异常检测、性能剖析)
● 设计Agent驱动的智能运维能力:异常自动诊断、故障自愈、容量自动调整,让Agent不仅是"被运维的对象",更是"参与运维的主体"
● 建立云上应用的容灾与高可用方案,覆盖多可用区部署、故障切换、数据一致性保障,确保核心业务的持续稳定运行
组织建设与技术文化
● 搭建兼具云原生工程深度与Agent系统理解力的架构团队,主导核心人才引进与梯队建设
● 推动Agent原生研发范式在团队和公司的落地——建立AGENTS.md等标准化协作规范,让Agent成为研发流程中的一等公民
● 营造追求工程卓越、拥抱自动化与创新的技术文化,积极参与云原生与Agent原生工程领域的行业交流
包括英文材料
学历+
Kubernetes+
Docker+
Service Mesh+
系统设计+
Terraform+
Pulumi+
还有更多 •••
相关职位

logo of aliyun
社招10年以上云智能集团

岗位定位 当AI Agent开始7x24小时自主运行研发任务,云原生基础设施的使用方式正在被彻底重新定义。我们需要一位能为Agent原生时代设计全新用云范式的架构师。 您不是从零构建云原生底座,而是站在已有的云原生基础设施之上,将云服务、商业化链路、资源调度、稳定性运维等复杂能力,以Agent友好的方式重新封装为高效、可编排、成本最优的标准化接口与工具链。您的核心使命是:让AI Agent能像最优秀的工程师一样,通过IaC、CLI、API自主操控云基础设施,并为7x24小时托管式Agent原生研发模式提供强大的Harness架构与配套的研发流水线。 这是一个定义"Agent如何用云"的前沿架构角色——您将在AgentSRE、FinOps、IaC-as-Agent-Interface等方向上探索行业最佳实践,让基础设施从"人用的工具"进化为"Agent的原生操作系统"。 核心职责 Harness架构升级与治理 ● 设计并持续演进面向Agent原生研发模式的Harness架构——定义Agent任务的编排框架、执行沙箱、权限边界与生命周期管理,支撑7x24小时托管式Agent自主运行 ● 构建Agent原生的研发流水线与工具链:从代码生成、构建测试、部署发布到线上运维,全链路具备Agent可调用、可观测、可回滚的能力 ● 建立Harness架构的治理机制——Agent行为审计、策略门控(Policy-as-Code)、异常熔断与人工接管逻辑,确保自主运行的安全性与可控性 云原生基座封装与高效用云 ● 将已有云原生基础服务(计算、存储、网络、中间件等)封装为Agent友好的标准化接口——IaC模块、CLI工具集、声明式API,让Agent能通过自然的工具调用方式完成基础设施操控 ● 设计"CLI Anything"能力层:将云平台的运维操作、配置变更、环境管理等全面CLI化和API化,消除Agent操作云资源的认知壁垒与操作门槛 ● 主导云服务商业化链路的封装与优化——资源开通、计量计费、多租户隔离、SLA管理等能力的标准化接入,让Agent能自主完成从资源申请到交付的全流程 资源预测与成本治理(FinOps) ● 构建AI驱动的云资源预测与规划体系——基于业务负载模式、Agent任务调度特征,实现资源需求的智能预测与提前调度 ● 主导FinOps体系建设:建立多维度成本归因、实时用量监控与预算预警机制,将成本可见性深入到每个Agent任务和每条业务线 ● 设计并落地成本优化策略——弹性伸缩策略优化、预留实例与按需实例的智能组合、闲置资源自动回收、跨可用区调度,在保障SLA的前提下持续降低用云成本 稳定性与可观测性体系 ● 建立面向Agent原生运行环境的AgentSRE体系——定义Agent服务的SLO/SLI,构建Agent任务执行的全链路可观测性(执行日志、资源消耗、异常检测、性能剖析) ● 设计Agent驱动的智能运维能力:异常自动诊断、故障自愈、容量自动调整,让Agent不仅是"被运维的对象",更是"参与运维的主体" ● 建立云上应用的容灾与高可用方案,覆盖多可用区部署、故障切换、数据一致性保障,确保核心业务的持续稳定运行 组织建设与技术文化 ● 搭建兼具云原生工程深度与Agent系统理解力的架构团队,主导核心人才引进与梯队建设 ● 推动Agent原生研发范式在团队和公司的落地——建立AGENTS.md等标准化协作规范,让Agent成为研发流程中的一等公民 ● 营造追求工程卓越、拥抱自动化与创新的技术文化,积极参与云原生与Agent原生工程领域的行业交流

更新于 2026-04-07杭州
logo of aligenie
社招8年以上

1. 负责设计基于AI大模型的下一代人工智能操作系统(AIOS),包括但不限于基于用户意图的AIOS系统架构、AI软硬件结合关键技术、端云协同大模型调度、系统安全架构等核心领域; 2. 设计原生支持多模态大模型(LLM)的系统内核架构,包括AI原生的进程调度、内存管理及功耗控制策略; 3. 定义Agentic AI应用交互新范式,实现从“应用为中心”到“智能体(Agent)“为中心的变迁理念,构建面向AI Agent的新型应用生态范式; 4. 紧跟行业和前沿技术发展趋势,深入理解AI技术发展理念和逻辑,前瞻性布局关键技术,保证系统架构先进性和可持续演进。

更新于 2026-04-01杭州
logo of aligenie
社招8年以上

1. 负责设计基于AI大模型的下一代人工智能操作系统(AIOS),包括但不限于基于用户意图的AIOS系统架构、AI软硬件结合关键技术、端云协同大模型调度、系统安全架构等核心领域; 2. 设计原生支持多模态大模型(LLM)的系统内核架构,包括AI原生的进程调度、内存管理及功耗控制策略; 3. 定义Agentic AI应用交互新范式,实现从“应用为中心”到“智能体(Agent)“为中心的变迁理念,构建面向AI Agent的新型应用生态范式; 4. 紧跟行业和前沿技术发展趋势,深入理解AI技术发展理念和逻辑,前瞻性布局关键技术,保证系统架构先进性和可持续演进。

更新于 2026-04-01杭州
logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1.负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2.负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3.负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4.负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5.负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-01-05深圳|杭州