通义研究型实习生-高性能大规模分布式图计算系统
任职要求
1、博士/硕士研究生,计算机等相关专业优先。
2、有扎实的理论基础,对大模型相关技术研究感兴趣。
…工作职责
超大规模图计算在大数据场景中发挥着越来越重要的作用。图计算的经典问题如可达性、社区检测、链路预测和模式匹配等已经在搜索推荐、金融风控等场景的实践中被验证效果显著;同时,图计算也越来越作为下一代机器学习和推荐系统的基础,成为GNN/GCN端到端解决方案的重要一环。然而,图计算在大规模应用的过程中,还有很多未决问题。如何复用已有的诸多图算法来处理超大规模图数据?如何兼顾超大规模环境下图计算的性能和用户易用性?图计算如何与TensorFlow/pyTorch等机器学习平台共同工作来完成一个端到端分析型计算?这一系列问题都十分具有挑战。 本项目包含以下研究方向: - 针对现有超大规模图计算系统中存在的海量规模计算和需要持久化存储的问题,需要设计和实现高效的存储结构和缓存机制; - 针对现有一站式图系统中存在的多范式计算问题,需要在新设计的高效存储结构中均衡在TP和AP场景下的性能表现; - 针对现实场景中图数据的高频动态变化,新设计的高效存储和缓存需要满足动态图变化的需求,并让系统具有优秀的弹性性能。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
1. 探索通算智算一体化场景下,端到端性能分析诊断体系的研究与构建,覆盖从底层硬件(CPU、GPU、NPU等)、系统软件到上层分布式框架和应用负载。 2. 深入研究CPU-GPU异构计算系统、分布式框架、系统软件栈(如操作系统、编译器、运行时)的性能瓶颈,提出并实现创新的软硬件协同优化方案。 3. 开发和落地先进的性能监控、剖析和诊断工具,支持从底层硬件指标到上层业务负载的全链路追踪与精准瓶颈定位。 4. 针对大规模AI模型训练/推理、通用计算等多样化负载,探索和实践GPU等异构资源的调度优化、资源容错、任务状态保存/恢复与快速迁移等关键技术,提升资源利用率和系统稳定性。 5. 研究内存(包括CPU内存和GPU显存)与计算的协同优化方案,旨在提升训推场景性能,降低整体成本,并优化资源利用率。 6. 将研究成果应用于阿里云平台及相关产品服务,提升云平台的整体性能、资源利用率和性价比,支持关键业务场景。 7. 在顶级学术会议和期刊上发表研究成果,并积极参与开源社区合作与技术推广,提升团队和公司在相关领域的技术影响力。