阿里云阿里云智能-异构GPU集群资源优化专家-杭州

社招全职5年以上云智能集团2025-09-10地点：杭州状态：招聘

扫码手机上打开

任职要求

1、精通C/C++/Go等核心开发语言，具备Python、Rust、Shell等一种或多种语言的开发经验，拥有规范的工程化编码能力；
2、深入理解Linux系统，具有Kubernetes及容器化技术的实战经验，有大规模生产系统软件的开发与运维经验；
3、熟悉异构计算编程，具备…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责异构计算集群的架构设计与研发，优化算力资源调度，提升效率与稳定性，为亿万用户提供普惠算力服务；
2、攻克主流AI应用在异构计算集群部署中的技术瓶颈，设计并开发高性能、高可用的异构计算解决方案；
3、主导Serverless化异构计算平台的建设，推动云原生架构在异构计算领域的创新应用与迭代升级；
4、跟踪AI领域的前沿技术动态，参与构建面向下一代AI训练与推理场景的智能算力平台架构。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Go+

Python+

Rust+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-异构GPU集群资源优化专家-杭州

社招5年以上云智能集团

1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题； 2. 保障在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求； 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持多款智算相关产品的多种应用场景，提供灵活且强大的GPU资源共享解决方案； 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-11-05杭州

阿里云智能-异构GPU集群资源优化技术专家-杭州

社招5年以上技术类-开发

1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测，通过智能化运维手段确保系统的高可用性和稳定性，提前识别并解决潜在问题； 2. 保障灵骏与集团在线POD的集群资源管理与切分业务，优化资源分配策略，提高资源利用率和任务处理效率，支持大规模分布式计算的需求； 3. 开发和维护KuberGPU技术，实现GPU资源的高效切分与容器化部署，支持包括灵骏客户、集团内部需求以及阿里云服务（ACS）产品在内的多种应用场景，提供灵活且强大的GPU资源共享解决方案； 4. 开发和实施容器热迁移技术，提升集群灵活性和容错能力，确保在不停机的情况下进行系统维护和资源调度，进一步增强用户体验和服务连续性。

更新于 2025-06-18杭州

蚂蚁集团-算力服务平台研发专家-杭州

社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算，智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术，为上层业务提供云原生服务，AI算力服务，全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生，AI快速发展的背景下，能够面向异构的物理资源，设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发：负责设计通算，智算的算力调度，优化的平台架构，实现算力的弹性伸缩，分时调度，能够设计训推混部的统一架构平台，实现算力资源有效利用 ● 节点池架构与异构资源管理：负责节点池架构设计，实现算力节点池的产品化管理能力，支持CPU/GPU等异构资源的统一调度与资源隔离，优化AI异构场景下的节点管理策略，提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理：建设节点生命周期的全链路产品化能力，设计并实现节点故障预测与主动运维能力，支持算力节点与模型实例的自动化发现与自愈，能够保障算力的稳定和持续供给。 ● 技术创新与成本优化：探索云原生与AI技术结合的创新场景（如弹性节点池、智能调度算法），推动资源管理效率的持续提升。通过资源预测、库存优化等手段，降低集群运维成本与资源浪费

更新于 2025-06-11杭州

大模型训练调度工程师/专家-Seed

社招A94989A

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统资源调度的设计和开发，服务于各方向场景（NLP/CV/Speech等）的模型训练、模型评估和模型推理； 2、负责多种异构资源（GPU、CPU、其他异构硬件）的最优化编排，实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用； 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度，充分发挥大规模分布式集群的计算能力； 4、负责多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布； 5、负责资源的复用和利用率的提升，更好的利用大模型场景中的预训练、后训练、离线推理、评估等任务的特性，优化排队、优先级、抢占等逻辑，提升集群利用率。

更新于 2024-12-09杭州