logo of aliyun

阿里云阿里云智能-容器服务与 Agent 基础设施高级技术专家-北京/杭州/深圳

社招全职7年以上云智能集团地点:北京 | 深圳 | 杭州状态:招聘

任职要求


1.计算机、软件工程及相关专业,计算机基础知识与编程基本功扎实,熟悉Go/Python/C++至少一种。
2.熟悉至少一项云原生技术(如Docker/Containerd/KataContainer/gVisor, Kubernetes等),有相关开源项目贡献或者大规模开发运维经验者优先。
3.熟悉分布式计算/存储/调度系统的开发运维,具有基本的性能和稳定性优化经验。
4.有构建和运维MLOps/AI工程平台,运行模型训练/推理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。
2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。
3.构建面向AI与Agent应用的Serverless容器算力产品,
4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。
5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
包括英文材料
Go+
Python+
C+++
还有更多 •••
相关职位

logo of mi
社招A247103

1、OpenClaw核心系统开发 负责OpenClaw AI智能体平台的核心模块设计与开发,包括Gateway网关层、Agent智能体引擎、Skills技能系统等;构建可观测性基础设施,实现基于OpenTelemetry的链路追踪、指标采集和日志聚合能力;优化AI Agent执行流程,支持多智能体协作、任务编排和状态管理 2、AI工程化与Agent生态建设 负责AI Agent与业务系统的对接集成,包括知识库(向量数据库+RAG)、工具调用、外部API对接;实现Agent执行过程的可观测性,追踪成功率、延迟、token消耗等关键指标 3、微服务架构设计与演进 基于云原生架构设计高可用、高扩展的微服务系统,确保支撑大规模AI请求并发;负责服务治理体系建设,包括服务发现、负载均衡、熔断降级、限流等核心能力;实现流量管理、安全通信和可观测性统一 4、中间件研发与优化 深度参与RPC框架(Dubbo/gRPC)、消息队列、配置中心等中间件的选型、定制和优化;解决分布式系统核心难题,包括数据一致性、分布式事务、容错恢复等;构建高性能日志服务(Log Server),支持海量日志的实时采集、路由和查询 5、技术攻关与团队赋能 独立承担云原生、中间件、AI应用中的复杂技术难题攻关;参与团队技术规划,推动技术创新和最佳实践落地;指导初级工程师,提升团队整体技术水平

更新于 2026-03-23北京
logo of aliyun
社招8年以上云智能集团

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

更新于 2026-02-11杭州
logo of aligenie
社招8年以上

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

更新于 2026-04-02杭州
logo of aliyun
社招3年以上云智能集团

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

更新于 2026-02-11北京