阿里云阿里云智能-AI系统性能优化技术专家-北京/杭州

社招全职5年以上云智能集团2025-10-31地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 熟悉深度学习框架(pytorch)，分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang）；
2. 熟悉AI系统的性能分析工具（如Nsigh…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责灵骏集群的AI系统性能分析与优化，支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优，能快速且以工具/产品化方式识别性能瓶颈并提出解决方案；
2. 针对主流深度学习框架、分布式训练和模型部署场景等，进行性能调优，优化算子性能、通信性能、内存利用率等关键指标，提升集群整体运行效率；
3. 对AI系统进行性能建模与仿真，建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配，为集群建设提供数据支持；同时推荐最佳训练和模型部署配置，辅助用户拿到最佳性能实践；
4. 负责开发和维护性能分析工具，支持系统性能监控、瓶颈定位和优化效果评估，提供性能分析报告，为团队和客户提供性能优化建议。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

PyTorch+

Megatron+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-AI系统性能优化技术专家-AI领域-北京/杭州/上海

社招5年以上云智能集团

1. 负责灵骏集群的AI系统性能分析与优化，支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优，能快速且以工具/产品化方式识别性能瓶颈并提出解决方案； 2. 针对主流深度学习框架、分布式训练和模型部署场景等，进行性能调优，优化算子性能、通信性能、内存利用率等关键指标，提升集群整体运行效率； 3. 对AI系统进行性能建模与仿真，建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配，为集群建设提供数据支持；同时推荐最佳训练和模型部署配置，辅助用户拿到最佳性能实践； 4. 负责开发和维护性能分析工具，支持系统性能监控、瓶颈定位和优化效果评估，提供性能分析报告，为团队和客户提供性能优化建议。

更新于 2025-12-10北京|杭州|上海

阿里云智能-网络研发通信库技术专家-北京/杭州

社招5年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信库的设计研发、以优化 • 对技术方案进行分析拆解，制定任务目标和产出规范，完成关键模块的设计、编码开发和系统功能实现 • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠 • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的产品技术和趋势，根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-18北京|杭州

阿里云智能-AI集群通信优化高级技术专家-北京/杭州

社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析计算通信协同优化的技术方案； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信优化方案设计，包括计算通信协同优化、通信库研发测试、以及交付与支持； • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠； • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州

阿里云智能-资源管理平台技术专家-北京/上海/杭州

社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求，围绕资源管理平台确定相应技术方案的目标、范围和交付成果； • 基于需求分析，进行技术可行性分析和方案评审，结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护资源管理平台核心业务模块，优化程序性能等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等； • 编写技术文档，如操作手册、故障排除指南、API文档等，以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法，实现安全保障和优化系统性能，提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势，结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22北京|杭州|上海