logo of aliyun

阿里云阿里云智能-AI系统性能优化技术专家-AI领域-北京/杭州/上海

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang);
2. 熟悉AI系统的性能分析工具(如Nsight、PyTorch Profiler等);
3. 具备性能建模与仿…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1.参与并负责存储系统数据链路的设计、开发工作,包括面向闪存、非易失性介质、海量磁盘介质的存储系统软件设计与开发。 2.负责新存储机型、新硬件的适配,从事软硬协同设计的技术研发,具体包括ZNS SSD新硬件的软硬协同设计、众核技术架构技术优化、面向下一代高性能及海量存储机型的软硬协同设计等。 3.深入云存储业务场景,针对人工智能、大数据分析、海量存储、高性能低延迟场景进行存储系统架构设计、性能优化、效能提升与系统优化,演进下一代存储系统。 4.参与存储业务线的技术支持,和业务线进行协同配合,定位解决分布式存储引擎存在的问题,保障线上业务稳定生产。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-30北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 针对整机柜超节点服务器,全面赋能计算、互联、监控、故障及性能诊断等核心能力; 2. 梳理适配超节点异构服务器产品的业务场景,开展对应的昆仑组件设计与开发,涵盖性能评测分析、容器镜像等关键模块; 3. 基于整机柜硬件架构及典型业务落地场景,构建典型故障与异常案例库,并设计相应的故障诊断方案; 4. 负责跟踪与研究主流GPU架构设计技术,参与下一代AI Infra的规划与设计; 5. 结合业务画像,构建面向异构硬件与系统的全链路量化分析模型,形成数据驱动的决策数据库,有效推动异构服务器产品的规划与规模化落地。

更新于 2025-11-26北京|杭州