阿里云阿里云智能-AgentRun AI 基础设施研发专家-杭州
任职要求
1. 精通C/C++/Go等核心开发语言,具备Python、Rust、Shell等一种或多种语言的开发经验,拥有规范的工程化编码能力; 2. 深入理解Linux系统,具有Kubernetes及容器化技术的实战经验,有大规模生产系统软件的开发与运维经验; 3. 具备大规模GPU集群管理与运维经验,对K8S GPU管理、GPU虚拟化、GPU坏卡诊断、GPU卡间与机间通信、GPU性能调优、GPU监控、CUDA开发有相关研发经验优先; 4. 具备后训练相关工作经验,对SFT、RLHF、DPO原理掌握并有实际应用,熟悉常见训练框架如LLaMA Factory、ms-swift、trl经验优先; 5…
工作职责
1. 负责Serverless GPU集群超卖率提升工作,围绕通用与垂类模型推理场景(如文生图),构建高性能多租共享Serverless GPU集群,通过模糊不同GPU代际卡型、模型P2P加速能力、模型CacheAware调度能力,在保证基准推理性能的同时,降低集群运营成本,提高冷启动性能。 2. 负责AI模型后训练产品化工作,基于开源模型串连数据清洗、模型后训练、后训练效果评估反馈、线上数据回流全链路产品化流程,使面向垂类业务场景的后训练模型在效果、成本、延迟达到业务要求,支撑AgentRun客户生产业务大规模落地。 3. 负责国产信创Serverless GPU产品化工作,适配对应的软件栈与软件生态,长期跟踪fireware/sdk/drvier升级确保模型SOTA效果与性能,解决并收敛客户使用国产信创GPU过程中的疑难问题,利用RDMA探索差异化的Serverless弹性异构算力,支持国产信创AgentRun客户生产业务大规模落地。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。