
智能互联阿里云智能-容器平台研发专家-AI 推理平台-杭州/北京
任职要求
1、5 年以上分布式系统架构设计与开发经验,具备复杂分布式系统架构设计及开发经验; 2、对分布式系统架构、数据库、Linux操作系统等有深入理解,具备一定的 Linux 系统应用运维经验; 3、有 Kubernetes 等容器系统、AI 训推平台等 AI 系统架构设计与开发经验,或熟悉 G…
工作职责
1、负责阿里边缘云容器产品管控系统的架构设计、开发与维护工作; 2、维护高性能、高可用的容器管控服务,保障业务系统在全球范围内的稳定性; 3、为 AI 推理等相关场景提供更优化的服务能力,高效使用资源的同时,快速交付算力服务; 4、深入参与产品全生命周期研发管理,持续优化提升产品的安全性、稳定性、性能、功能与用户体验,以技术驱动业务增长; 5、负责容器领域前沿技术的探索,推动系统架构演进及优化,完成技术预研和技术难点攻关。
1、负责阿里边缘云容器产品管控系统的架构设计、开发与维护工作; 2、维护高性能、高可用的容器管控服务,保障业务系统在全球范围内的稳定性; 3、为 AI 推理等相关场景提供更优化的服务能力,高效使用资源的同时,快速交付算力服务; 4、深入参与产品全生命周期研发管理,持续优化提升产品的安全性、稳定性、性能、功能与用户体验,以技术驱动业务增长; 5、负责容器领域前沿技术的探索,推动系统架构演进及优化,完成技术预研和技术难点攻关。
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。