logo of aliyun

阿里云阿里云智能-AI系统性能优化技术专家-AI领域-北京/杭州/上海

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang);
2. 熟悉AI系统的性能分析工具(如Nsight、PyTorch Profiler等);
3. 具备性能建模与仿…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1.参与并负责存储系统数据链路的设计、开发工作,包括面向闪存、非易失性介质、海量磁盘介质的存储系统软件设计与开发。 2.负责新存储机型、新硬件的适配,从事软硬协同设计的技术研发,具体包括ZNS SSD新硬件的软硬协同设计、众核技术架构技术优化、面向下一代高性能及海量存储机型的软硬协同设计等。 3.深入云存储业务场景,针对人工智能、大数据分析、海量存储、高性能低延迟场景进行存储系统架构设计、性能优化、效能提升与系统优化,演进下一代存储系统。 4.参与存储业务线的技术支持,和业务线进行协同配合,定位解决分布式存储引擎存在的问题,保障线上业务稳定生产。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进。 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能。 3.构建面向AI与Agent应用的Serverless容器算力产品。 4.基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案。 5.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2025-12-06北京|杭州
logo of aliyun
社招2年以上云智能集团

● 面向 NVIDIA GPU、AMD GPU、NPU 等主流异构 AI 加速硬件,对大模型核心算子进行深度性能优化,极致压榨计算与访存带宽资源,显著提升端到端推理吞吐量与延迟表现。 ● 设计并实现高精度、极低比特(如 INT4/INT2)量化内核,在保障推理精度的前提下,大幅降低模型存储占用与计算开销,推动大模型在资源受限场景下的高效部署。 ● 针对大规模分布式推理场景,研发计算-通信协同优化技术,有效隐藏通信延迟,提升多卡/多节点系统的可扩展性与资源利用率。 ● 紧跟大模型架构前沿演进,针对稀疏 MoE、线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等新型结构,开展端到端性能建模、算子定制与内核级优化,为下一代高性能推理引擎提供核心技术支撑。

更新于 2025-12-16北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州