logo of aliyun

阿里云阿里云智能-异构GPU集群资源优化研发专家-AI领域-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、精通C/C++/Go等核心开发语言,具备Python、Rust、Shell等一种或多种语言的开发经验,拥有规范的工程化编码能力。
2、深入理解Linux系统,具有Kubernetes及容器化技术的实战经验,有大规模生产系统软件的开发与运维经验。
3、熟悉异构计算编程,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。
2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。
3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。
4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
包括英文材料
C+
C+++
Go+
Python+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。

更新于 2025-12-06杭州
logo of aliyun
社招5年以上云智能集团

1、负责异构计算集群的架构设计与研发,优化算力资源调度,提升效率与稳定性,为亿万用户提供普惠算力服务; 2、攻克主流AI应用在异构计算集群部署中的技术瓶颈,设计并开发高性能、高可用的异构计算解决方案; 3、主导Serverless化异构计算平台的建设,推动云原生架构在异构计算领域的创新应用与迭代升级; 4、跟踪AI领域的前沿技术动态,参与构建面向下一代AI训练与推理场景的智能算力平台架构。

更新于 2025-09-10杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-10北京|杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-06北京|杭州