阿里云阿里云智能-异构GPU集群资源优化研发专家-AI领域-杭州

社招全职5年以上云智能集团2025-12-30地点：杭州状态：招聘

扫码手机上打开

任职要求

1、精通C/C++/Go等核心开发语言，具备Python、Rust、Shell等一种或多种语言的开发经验，拥有规范的工程化编码能力。
2、深入理解Linux系统，具有Kubernetes及容器化技术的实战经验，有大规模生产系统软件的开发与运维经验。
3、熟悉异构计算编程，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题。
2. 保障在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求。
3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持多款智算相关产品的多种应用场景，提供灵活且强大的GPU资源共享解决方案。
4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Go+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构GPU集群资源优化研发专家-杭州

社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持多款智算相关产品的多种应用场景，提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-12-06杭州

阿里云智能-异构GPU集群资源优化专家-杭州

社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题； 2. 保障在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求； 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持多款智算相关产品的多种应用场景，提供灵活且强大的GPU资源共享解决方案； 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-11-05杭州

阿里云智能-异构GPU集群资源优化技术专家-杭州

社招5年以上云智能集团

更新于 2025-12-06杭州

阿里云智能-异构GPU集群资源优化技术专家-AI领域-杭州

社招5年以上云智能集团

更新于 2025-12-06杭州