logo of aliyun

阿里云研究型实习生 - 超大规模MoE预训练关键技术研究

实习兼职阿里云研究型实习生地点:北京状态:招聘

任职要求


候选人应为计算机及相关专业的博士或硕士研究生,且对机器学习系统有充分的兴趣;最好有机器学习系统及分布式系统相关研究和开发经验,了解或熟悉Megatron/TransformerEngine等LLM训练相关系统;
需要产出论文和专利等高水平的学术成果。

工作职责


随着模型尺寸和数据规模的持续扩大,预训练任务已成为AI研究和发展中最为资源密集的环节之一。本项目旨在深入的理解预训练任务的workload特点,定位性能瓶颈,并进行优化从而降低预训练任务的成本开销。例如从显存,通信,计算优化等方面优化MoE大规模训练任务的吞吐,支持包括通义实验室等领域方向。
包括英文材料
机器学习+
分布式系统+
Megatron+
大模型+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 机器学习 项目简介: 目前大安全的大模型训练需求,在多种因素层面都有很大差异,如模型规模方面从7B到671B不等、上下文长度从1K到128K不等、模型结构包含Dense和MoE,此外,考虑到训练资源高效调度与复用的前提,每次训练获得的机器和GPU的规格也会动态变化。另一方面,超大权重规模的大模型训练往往采用多种并行技术相结合的方式,如数据并行、模型并行、张量并行、流水线并行、专家并行、序列并行等。因此,对于不同的模型结构和不同的资源规格,如何找到最佳的并行参数组合使训练效果和效率达到最优,成为一个日趋复杂的业界难题,目前的训练框架具备基础的并行技术自动规划能力,但仍然以人工经验为主进行调优,此问题在大规模训练情况下尤其突出,往往消耗大量人工精力进行反复试错。

logo of aliyun
实习阿里云研究型实习

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。

更新于 2025-02-07
logo of tongyi
实习通义研究型实习生

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。

更新于 2025-07-10
logo of tongyi
实习通义研究型实习生

超大规模图计算在大数据场景中发挥着越来越重要的作用。图计算的经典问题如可达性、社区检测、链路预测和模式匹配等已经在搜索推荐、金融风控等场景的实践中被验证效果显著;同时,图计算也越来越作为下一代机器学习和推荐系统的基础,成为GNN/GCN端到端解决方案的重要一环。然而,图计算在大规模应用的过程中,还有很多未决问题。如何复用已有的诸多图算法来处理超大规模图数据?如何兼顾超大规模环境下图计算的性能和用户易用性?图计算如何与TensorFlow/pyTorch等机器学习平台共同工作来完成一个端到端分析型计算?这一系列问题都十分具有挑战。 本项目包含以下研究方向: - 针对现有超大规模图计算系统中存在的海量规模计算和需要持久化存储的问题,需要设计和实现高效的存储结构和缓存机制; - 针对现有一站式图系统中存在的多范式计算问题,需要在新设计的高效存储结构中均衡在TP和AP场景下的性能表现; - 针对现实场景中图数据的高频动态变化,新设计的高效存储和缓存需要满足动态图变化的需求,并让系统具有优秀的弹性性能。

更新于 2024-11-14