logo of aliyun

阿里云阿里云智能-AI系统性能优化高级研发工程师-杭州/北京

社招全职技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang);
2. 熟悉AI系统的性能分析工具(如Nsigh…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
还有更多 •••
相关职位

logo of aliyun
社招技术类-开发

1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。

更新于 2025-06-18北京|杭州
logo of aliyun
社招3年以上云智能集团

业务支撑 • 负责资源编排ROS运维系统、AI诊断、AI运维助理、运维MCP等功能 • 负责资源编排ROS管控功能、资源逻辑和IaC引擎等模块 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班Oncall、升级工单处置、Bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地

更新于 2026-01-09北京|杭州
logo of aliyun
社招3年以上云智能集团

1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计; 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等; 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。

更新于 2025-12-20北京|杭州|南京
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海