
智能互联基础设施与稳定性工程-AI资源调度与混部研发工程师-杭州
任职要求
1. 精通golang等编程语言,熟练掌握常见数据结构和算法设计,具备高标准的研发质量意识; 2. 计算机基础扎实,掌握计算机系统结构,Linux操作系统,计算机网络,数据库等基础知识; 3. 具备大规模分布式系统研发经验,熟悉kubernetes/koodinator/ru…
工作职责
面向阿里集团提供高稳定、低成本、易使用的容器服务,通过业务弹性编排、资源额度弹性管理、多等级资源调度和混合部署、运筹优化的全局资源规整和排布、异常检测和诊断自愈等,支持业务便捷、高效使用集团全局智算和通算资源,并保障不同等级不同场景的业务服务slo。 1. 负责智算和通算资源的统一管理和统一调度等集群管理、基础调度、容器与混部等相关技术和系统研发; 2. 负责交易导购类、搜推广引擎类、大模型AI类、大数据类、数据库类和中间件类等业务的应用编排和弹性调度托管; 3. 负责基础资源监控、基础资源数据、异常检测和诊断自愈、研发质量和稳定性等DevOps&AIOPS相关基础平台研发; 4. 负责计算、存储、网络、机房和业务布局等云原生基础设施规划演进,持续降低基础设施成本,并屏蔽底层基础设施差异。

1、整合 GPU/CPU 算力、存储(如 CPFS)、网络(如 RDMA/InfiniBand)、供应链流转等多维度数据,构建资源使用率、成本结构与供需分析模型,输出可落地的优化建议; 2、整合资源效能和业务性能指标(如MFU、TPM、TPOT、GPU 利用率等),建立资源效能评估模型,量化资源投入与业务产出之间的关系,为资源规划与采购决策提供数据支撑; 3、负责 AI Infra 资源数仓的数据链路设计与建设,覆盖数据采集、清洗、加工、存储与服务全流程,保障资源数据的准确性、一致性与时效性; 4、构建并维护资源数据可视化平台,开发资源热力图、利用率趋势、成本分摊仪表盘等,支撑日常运营与管理层决策; 5、与资源运营、财务、研发等团队紧密协作,搭建资源生命周期关键指标看板,定期输出资源效能分析报告,支撑资源采购与部署策略落地。

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##
作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。 我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。 面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向: - 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求; - 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级; - 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式; - 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性; - 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。 你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~