logo of aliyun

阿里云阿里云智能-灵骏异构技术专家-杭州/上海/北京

社招全职5年以上技术类-开发地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 5年以上异构、GPU领域的研发工作经验。
2.深入掌握GPU计算与调度优化, 包括GPU编程技术(CUDA、ROCm等),熟悉NVIDIA驱动架构或linux开源GPU驱动架构、GPU资源监控工具(如NVIDIA System Management Interface, NVML)及性能调优方法。
3. 精通C/C++编程,有良好的代码习惯,并能通过日志分析、perf等工具快速定位复杂的问题。
4. 熟悉容器化技术(Docker、containerd、CRI-O)及其与GPU资源的集成,对GPU容器运行时(如NVIDIA Container Toolkit、NVIDIA GPU Operator)有相关认知。
5. 了解业内AI/模型优化技术,对GPU加速模型训练、部署、推理有深入理解的候选人优先。

软技能:
1. 具备跨团队协作与沟通,能清晰表达技术架构设计及复杂问题解决方案,输出高质量的技术文档(如架构图、API设计文档)。
2. 具备学习与创新能力,对云原生、GPU计算等前沿技术保持敏锐洞察,能快速学习新技术并推动创新方案在业务中落地。
3. 具备极强的工程化思维与问题解决能力,能主动识别系统风险并提出优化方案。

工作职责


1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。
2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。
3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。
4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
CUDA+
Linux+
性能调优+
C+
C+++
Perf+
Docker+
系统设计+
相关职位

logo of aliyun
社招5年以上技术类-开发

1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。

更新于 2025-06-18
logo of aliyun
社招5年以上技术类-开发

1. 负责灵骏集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题; 2. 保障灵骏与集团在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求; 3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持包括灵骏客户、集团内部需求以及阿里云服务(ACS)产品在内的多种应用场景,提供灵活且强大的GPU资源共享解决方案; 4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。

更新于 2025-06-18
logo of aliyun
社招5年以上技术类-开发

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-06-18
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-09-10