阿里云阿里云智能-高性能计算GPU性能优化专家-北京/杭州

社招全职5年以上云智能集团2025-09-03地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.5年及以上高性能计算场景GPU集群计算性能优化经验；
2.精通主流GPU计算框架的计算、编译和通信优化；
3.精通CUDA编程性能优化与GPU微架构优化；
4.精通NCCL、MPI等分布式通信…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责高性能计算场景下GPU集群计算的性能分析与优化，识别性能瓶颈并进行性能优化;
2.负责优化GPU内核执行效率，优化CUDA内核、显存访问模式及GPU流水线利用率;
3.负责优化分布式通信库在多节点多卡环境下的通信性能，以及计算和通信重叠优化;
4.设计并实现性能监控与诊断工具，识别性能热点与资源争用问题，形成性能调优的工程方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

Message Passing Interface+

相关职位

阿里云智能-大模型训推加速平台研发专家/高级专家-北京/杭州

社招3年以上云智能集团

● 设计和实现高效的训练推理框架，提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础，熟悉底层的硬件编程和常见GPU的算子库开发，能对算法的运行效率如速度、显存占用等进行优化，推动算法稳定、高效的运行。 ● 完善优化训练推理框架，针对市面上的国产信创卡能提出统一的优化方案，并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构，确保极端负载下的稳定性和性能。完善错误自愈机制，提升平台训练的MFU，打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计：主导核心模块技术方案设计与评审，结合业务需求与系统现状，制定可落地的架构规划。 ● 基础服务开发：构建高可用、可扩展的基础服务组件，支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理：主导跨团队协作项目的全生命周期管理，包括需求拆解、排期规划、进度跟踪与风险控制，确保项目高效交付。 ● 持续关注并跟进业界技术发展，比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州

阿里云智能-AI集群通信优化高级技术专家-北京/杭州

社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析计算通信协同优化的技术方案； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信优化方案设计，包括计算通信协同优化、通信库研发测试、以及交付与支持； • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠； • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州

阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招5年以上云智能集团

1.负责主流大模型（DeepSeek、通义、LLaMA等）的全栈性能优化，涵盖模型架构优化、训练/推理框架调优及底层算子优化，提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案，通过投机采样算法改进、MTP机制优化等框架级特性，提升MOE架构模型推理效率；并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性，提升集群级别的推理效率 3.完成 W8A8 等量化算法研发，并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构（NVIDIA/AMD GPU、国产化 NPU 等）进行深度硬件适配，开发高性能算子库与内存管理组件，实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14北京|深圳|杭州

阿里云智能-云网络虚拟化网元研发专家-杭州/北京/南京

社招5年以上云智能集团

1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计； 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护，包括相关需求开发、性能优化、架构升级、稳定性保障等； 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。

更新于 2025-11-27北京|杭州|南京