
智能互联基础设施与稳定性工程-产品专家-Agent Infra 产品经理
任职要求
基本要求: 1.本科及以上学历,计算机科学、软件工程、人工智能、自然语言处理或相关专业背景。 2.3年以上产品经理经验,具备以下至少一项领域经验: 1)研发协作/信息处理/数据治理类产品 2)开发者工具/研发效能平台/AI辅助编程类产品 3)可观测/运维监控/中间件/基础设施类产品 3.理解软件开发生命周期,理解TDD、CI/CD、DevOps、GitOps、SDD等工程实践。 4.熟悉AINatvie的开发模式,了解AlAgent及主流框架,了解大模型在软件工程的能力边界及主流工具。 5.具备良好的数据分析能力,能通过数据发现痛点、验证假设、驱动决策。 产品思维要求: 1.具备“识别问题→定义产品→迭代交付”的完整产品思维闭环 2.具备领域抽象与结构化思维能力,能将模糊的技术趋势…
工作职责
围绕软件工程过程,建设「让所有AlAgent产品可靠运行」的基础设施产品,定义Agent基础设施产品的全生命周期,设计让Agent“快、稳、准"的 底层产品体系,支撑数十万开发者在Al-Native时代的软件工程实践。 1.负责AgentInfra的产品规划,围绕产品分析、软件交付、可测试性、技术风险控制、协作效率、研发资产管理等定义关键产品能力。 2.以VibeCoding的方式利用AI工具,一体化传统PD、交互、前端角色,快速迭代验证产品思考并转化为产品力。 3.结合Al发展趋势,持续追踪先进的Agent产品及HarnessEngineering等工程实践演进,确保产品技术路线的先进性。 4.保持平台的开放性,服务于多样化的业务场景与Agent军团业态,放大作用域。 5.建立有效的产品跟踪体系,持续验证并优化产品对技术产能的实际贡献,形成完整的价值闭环。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
我们是中台技术部大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势。其中 QuickSilver 大模型生产部署平台负责调度公司内所有稠密类模型训练与推理资源,基于自建训推引擎,为公司所有大模型算法同学提供端到端一站式AI服务,包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力,持续赋能小红书社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 岗位职责: 1、负责大模型平台整体架构设计,构建高可用、高性能、可扩展的云原生体系。 2、主导大模型全流程 DevOps/MLOps 工程体系建设,打造端到端一站式平台能力。 3、推动训练框架、推理引擎、压缩工具链与平台深度集成,提升模型研发与发布效率。 4、负责平台核心模块研发(模型管理、任务管理、实验系统、评测与发布等)。 5、持续优化平台性能、稳定性与可观测性,支撑多模型、多业务的规模化生产需求。 6、跟踪并引入行业前沿 AI Infra 技术,推动平台能力和产品体验持续演进。 7、协同上下游团队进行必要的资源调度与自动化优化,共同提升算力效率。