阿里云阿里云智能-AgentRun AI基础设施研发专家-杭州
任职要求
1. 扎实的计算机基础,精通 Go、Python 或 Java 中至少一门语言,具备良好的工程抽象与系统设计能力; 2. 熟悉主流 Agent 框架(如 LangChain、AutoGen、LangGraph、Dify、Google ADK 等),有实际项目开发或二次开发经验者优先; 3. 理解 LLM 应用架构,熟悉 Prompt Engineering、Tool Use、RAG、Agent Memory 等关键技术原理; 4. 具备分布式系统开发经验,了解任务调度、消息队列、状态管理、一致性协议等核心概念; 5. 对云原生技术栈(Kubernetes、Serverless、Service Mesh)有一定实践,熟悉容器化部署与资源隔离机制; 6.…
工作职责
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 负责Serverless GPU集群超卖率提升工作,围绕通用与垂类模型推理场景(如文生图),构建高性能多租共享Serverless GPU集群,通过模糊不同GPU代际卡型、模型P2P加速能力、模型CacheAware调度能力,在保证基准推理性能的同时,降低集群运营成本,提高冷启动性能。 2. 负责AI模型后训练产品化工作,基于开源模型串连数据清洗、模型后训练、后训练效果评估反馈、线上数据回流全链路产品化流程,使面向垂类业务场景的后训练模型在效果、成本、延迟达到业务要求,支撑AgentRun客户生产业务大规模落地。 3. 负责国产信创Serverless GPU产品化工作,适配对应的软件栈与软件生态,长期跟踪fireware/sdk/drvier升级确保模型SOTA效果与性能,解决并收敛客户使用国产信创GPU过程中的疑难问题,利用RDMA探索差异化的Serverless弹性异构算力,支持国产信创AgentRun客户生产业务大规模落地。

1. 负责Serverless GPU集群超卖率提升工作,围绕通用与垂类模型推理场景(如文生图),构建高性能多租共享Serverless GPU集群,通过模糊不同GPU代际卡型、模型P2P加速能力、模型CacheAware调度能力,在保证基准推理性能的同时,降低集群运营成本,提高冷启动性能。 2. 负责AI模型后训练产品化工作,基于开源模型串连数据清洗、模型后训练、后训练效果评估反馈、线上数据回流全链路产品化流程,使面向垂类业务场景的后训练模型在效果、成本、延迟达到业务要求,支撑AgentRun客户生产业务大规模落地。 3. 负责国产信创Serverless GPU产品化工作,适配对应的软件栈与软件生态,长期跟踪fireware/sdk/drvier升级确保模型SOTA效果与性能,解决并收敛客户使用国产信创GPU过程中的疑难问题,利用RDMA探索差异化的Serverless弹性异构算力,支持国产信创AgentRun客户生产业务大规模落地。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。