logo of aliyun

阿里云阿里云智能-AI系统性能优化技术专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang);
2. 熟悉AI系统的性能分析工具(如Nsigh…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
还有更多 •••
相关职位

logo of alibaba
社招

1、AIGC应用设计和架构,如聊天、角色扮演等产品的相关功能研发工作; 2、探索并实现前沿的AI技术,将其与产品结合,创造富有价值的产品; 3、应用系统性能调优,优化产品体验,稳定性能力建设,构建鲁棒的AI应用; 4、负责应用效果相关工作,制定优化方向并推进优化工作;

更新于 2025-04-17北京|杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招5年以上技术类-开发

1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。 2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。 3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。

更新于 2025-06-18北京|杭州|上海