阿里云阿里云智能-异构GPU集群资源优化研发专家-AI领域-杭州
社招全职5年以上云智能集团地点:杭州状态:招聘
任职要求
1、精通C/C++/Go等核心开发语言,具备Python、Rust、Shell等一种或多种语言的开发经验,拥有规范的工程化编码能力。 2、深入理解Linux系统,具有Kubernetes及容器化技术的实战经验,有大规模生产系统软件的开发与运维经验。 3、熟悉异构计算编程,…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
包括英文材料
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
社招5年以上云智能集团
1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题。 2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求。 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案。 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
更新于 2025-12-06杭州
社招5年以上云智能集团
1、负责异构计算集群的架构设计与研发,优化算力资源调度,提升效率与稳定性,为亿万用户提供普惠算力服务; 2、攻克主流AI应用在异构计算集群部署中的技术瓶颈,设计并开发高性能、高可用的异构计算解决方案; 3、主导Serverless化异构计算平台的建设,推动云原生架构在异构计算领域的创新应用与迭代升级; 4、跟踪AI领域的前沿技术动态,参与构建面向下一代AI训练与推理场景的智能算力平台架构。
更新于 2025-09-10杭州
社招5年以上云智能集团
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
更新于 2025-12-10北京|杭州