logo of aliyun

阿里云阿里云智能-异构GPU集群资源优化研发专家-AI领域-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、精通C/C++/Go等核心开发语言,具备Python、Rust、Shell等一种或多种语言的开发经验,拥有规范的工程化编码能力。
2、深入理解Linux系统,具有Kubernetes及容器化技术的实战经验,有大规模生产系统软件的开发与运维经验。
3、熟悉异构计算编程,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。
2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。
3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。
4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
包括英文材料
C+
C+++
Go+
Python+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。

更新于 2025-12-06杭州
logo of aliyun
社招5年以上云智能集团

1、负责异构计算集群的架构设计与研发,优化算力资源调度,提升效率与稳定性,为亿万用户提供普惠算力服务; 2、攻克主流AI应用在异构计算集群部署中的技术瓶颈,设计并开发高性能、高可用的异构计算解决方案; 3、主导Serverless化异构计算平台的建设,推动云原生架构在异构计算领域的创新应用与迭代升级; 4、跟踪AI领域的前沿技术动态,参与构建面向下一代AI训练与推理场景的智能算力平台架构。

更新于 2025-09-10杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-30北京|杭州
logo of aliyun
社招5年以上云智能集团

● 负责PAI平台资源调度模块的设计与开发,全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度,实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升,结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征,优化排队策略、优先级管理与抢占机制,最大化整体资源效能。 ● 构建端到端的故障可观测体系,针对训练/推理任务中频发的软硬件异常(如 GPU XID 错误、网络超时、节点失联等),完善日志、指标、事件的采集与关联分析能力,实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制,基于历史故障模式与运行时上下文,开发自动化诊断引擎,支持动态降级、局部重试、弹性扩缩容等策略,减少人工干预,提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环,建设面向用户的训练状态看板,直观呈现任务健康度、资源使用、通信瓶颈及异常告警,并提供可操作建议,降低使用门槛,加速问题反馈与迭代优化。

更新于 2025-12-16北京|杭州