logo of aliyun

阿里云阿里云智能-AI系统性能优化高级研发工程师-杭州/北京

社招全职技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatronvllm、sglang);
2. 熟悉AI系统的性能分析工具(如NsightPyTorch Profiler等);
3. 具备性能建模与仿真经验,熟悉Roofline模型等性能分析方法;
4. 熟悉多模态生成式AI场景性能优化以及具备国产化芯片性能调优经验者优先。

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
vLLM+
Nsight+
性能调优+
相关职位

logo of aliyun
社招技术类-开发

1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。

更新于 2025-06-18
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15
logo of aliyun
社招3年以上云智能集团

1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。

更新于 2025-09-05
logo of xiaohongshu
社招3年以上机器学习平台

1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能