阿里云阿里云智能-大规模异构集群调度研发专家-AI领域

社招全职5年以上云智能集团2026-03-24地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机相关专业硕士及以上学历，具备扎实的工程能力和编程风格。
● 熟悉Python/Golang语言和常用设计模式，具备复杂系统的设计开发调试能力。
● 熟悉深度学习的基础理论概念，了解主流模型算法，能够熟练应用PyTorch、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

● 负责PAI平台资源调度模块的设计与开发，全面支撑模型训练、评估及推理阶段的资源调度需求。
● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度，实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。
● 聚焦资源复用与集群利用率提升，结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征，优化排队策略、优先级管理与抢占机制，最大化整体资源效能。
● 构建端到端的故障可观测体系，针对训练/推理任务中频发的软硬件异常（如 GPU XID 错误、网络超时、节点失联等），完善日志、指标、事件的采集与关联分析能力，实现问题快速定位与根因追溯。
● 研发智能诊断与自动容错机制，基于历史故障模式与运行时上下文，开发自动化诊断引擎，支持动态降级、局部重试、弹性扩缩容等策略，减少人工干预，提升作业自愈能力。
● 打造训练过程可视化与用户体验闭环，建设面向用户的训练状态看板，直观呈现任务健康度、资源使用、通信瓶颈及异常告警，并提供可操作建议，降低使用门槛，加速问题反馈与迭代优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

Go+

设计模式+

深度学习+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构GPU集群资源优化研发专家-AI领域-杭州

社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持多款智算相关产品的多种应用场景，提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-12-30杭州

阿里云智能-容器运行时技术专家-AI领域-杭州/北京

社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源（GPU/NPU/RDMA等）集群的调度、管理与性能优化，提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设，持续引领技术创新与行业实践。

更新于 2025-12-30北京|杭州

阿里云智能-容器服务AI基础设施研发专家-杭州

社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进； 2.主导大规模异构资源（GPU/NPU/RDMA等）集群的调度、管理与性能优化，提升资源利用效率、系统稳定性与运行性能； 3.设计并开发面向AI Agent场景的Serverless容器算力产品； 4.推动云原生AI领域前沿技术预研、落地及开源生态建设，持续引领技术创新与行业实践。

更新于 2026-01-05北京|杭州

阿里云智能-AI智算集群监管控算力管理平台技术专家-杭州/北京

社招5年以上技术类-开发

1. 建设灵骏监管控系统核心能力，不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系，如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-06-18北京|杭州