阿里巴巴业务技术-Agent infra工程师-杭州
任职要求
1. 具备3年以上SRE/后端经验,能独立完成线上故障定位、值班体系建设与复盘改进闭环。具有高并发大流量的复杂分布式系统治理、保障经验者优先。 2. 熟悉云原生与可观测技术栈(K8s、Prometheus、日志与Tracing),能建立统一监控与告警体系。 3. 熟悉发布、灰…
工作职责
1. 建立并落地核心Agent的稳定性保障体系,覆盖SLO/告警/应急/复盘与演练。 2. 建设Agent端到端可观测性与治理面能力,统一指标口径、链路追踪、日志与审计。 3. 推动变更治理与发布门禁,结合Evals回归、灰度对照与一键回滚降低上线风险。 4. 治理质量、成本与安全风险,建设漂移监测、预算/配额、限流熔断降级与越权检测。 5. 参与一站式Agent平台可靠性设计与能力产品化,并与AI Infra协同完成推理侧定位与容量治理。
1. 负责 AI Agent 基础平台(Agent Infra)的设计与实现,确保系统稳定、可扩展,支持多种架构的Agent运行。 2. 参与 AI Agent 核心组件与相关产品的研发,支持业务团队进行快速迭代。 3. 与产品、业务团队密切协作,识别Agent场景需求与痛点,并给出技术方案及架构优化建议。 4. 负责 Agent 优化链路与模型评估体系,利用 Context Engineering、SFT、RL 等算法提升 Agent 性能。 5. 跟踪 AI Agent 生态技术发展,评估并引入前沿技术(如 LLM、MCP、A2A 协议),推动平台发展。
我们是淘天集团-1688事业部-AI Pilot团队,负责1688与AI的全面深度融合,在十万亿级别的中国B2B市场中,探索AI Agent/AIGC的前沿技术和广阔应用前景。加入我们,您将: 1. 参与AI Agent/AIGC与1688 用户/商家/商品业务 的深度融合; 2. 参与AI创新业务的探索落地。如AI客服、AI商品、AI导购等,开辟AI电商新模式; 3. 参与1688的AI全链路基础建设。包括不限于:模型部署和训推加速、Agent研发平台、AIGC规模生产等;
团队描述: AIDC CIO 团队聚焦阿里国际企业内部经营链路的 AI 智能化升级,业务涵盖企业财务、税务、法务、生态用工管理及IT Infra等领域,支撑AIDC全球业务稳健运行,我们重点投入企业经营智能化 Enterprise Agent 技术研发,驱动财税法,IT等链路的AI智能化重构,在这里,你将直面全球化企业经营中最具挑战的业务复杂度,通过 AI Agent 与平台化技术重塑合规与效能。置身于最真实的“企业级AI”落地前沿,在解决全球化命题的过程中,实现技术实力与全局视野的快速迭代。 岗位描述: 1. 面向阿里国际多元经营场景,构建高性能 Enterprise Agent。推进财税法、IT、生态用工和企业员工 AI 办公协同等领域的智能化升级,解决全球化经营中的复杂决策问题。通过技术创新驱动业务变革,打造行业领先的企业级 AI应用范式。 2. 智能财税:构建企业级财务AI Agent能力,聚焦智能财税处理、合规风险管控、复杂决策辅助及业务流程自动化核心能力,驱动财税法经营链路与AI深度重构,打造业界领先的财务AI能力。 3. 企业服务:构建全链路企业服务 Agent 矩阵,围绕法务流程自动化、AI 辅助审核起草、RAG 智能咨询及生态用工效能评估,驱动专业服务效能跃迁与合规风险闭环,定义全球化经营下的数智化服务标准。 4. AI智能办公:构建一体化的AI工作台,围绕 RAG 企业知识问答、多模型通用助手、集成Action Agent的办事Skills及 AI 运营平台四大核心能力,驱动全员 AI办公渗透,重塑全球化协同办公新范式。
立足 AI Agent 业务的研发运维全链路视角,从稳定、体验、效率和成本这四个方面持续优化模型推理服务,支持好 AI Agent 业务。 ● 异构算力调度与算力池化(核心):负责 GPU / CPU / 其他异构算力的统一调度与算力池化。设计并实现弹性伸缩、资源混布、潮汐资源盘活、Quota 管理等能力,提升整体资源利用率。 ● 推理调度策略与性能优化:构建并优化推理调度与运行策略(如 KV Cache 管理、并发与队列控制、资源隔离),保障高峰流量下的低延迟与稳定性。 ● 资源编排与多云治理:构建多机房、多地域、多云环境下的统一调度策略,实现跨地域容灾与就近访问。 ● 推理框架与系统优化:协同底层网络 / 存储团队,优化 RDMA、高速网络、缓存 / 存储路径,充分释放大规模集群算力。 ● 平台稳定性与问题治理: ○ 负责推理平台的稳定性建设:治理推理服务常见稳定性问题,建设推理平台的 可观测与稳定性体系、压测与容量规划、问题定位与根因分析等能力,并持续降低 MTTR。 ○ 在多异构资源(GPU、CPU、NPU 等)、多云环境、复杂网络场景下,实现快速问题诊断、隔离与恢复。