logo of aliyun

阿里云研究型实习生 - 超大规模分布式LLM推理系统研究

实习兼职阿里云研究型实习生地点:北京 | 上海状态:招聘

任职要求


1、扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力;
2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心;
3、熟悉计算机体系结构基础知识,有扎实高性能计算(GPU/x86/ARM等)、或推理框架、或模型算法优化(量化/稀疏等)方面的经验;

加分项:
1、有突出的学术背景和创新研究能力;
2、对LLM等重点场景的系统优化或前沿算法有深入务实的经验;
3、具有GPU高性能Kernel开发和优化经验。

工作职责


专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括:
1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署;
2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎;
3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术;
4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理;
5、针对LLM重点场景构建业界领先的优化解决方案。
包括英文材料
Python+
C+++
设计模式+
算法+
大模型+
相关职位

logo of tongyi
实习通义研究型实习生

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。

更新于 2025-07-10
logo of aliyun
实习阿里云研究型实习

【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。

更新于 2025-06-03
logo of aliyun
实习阿里云研究型实习

随着模型尺寸和数据规模的持续扩大,预训练任务已成为AI研究和发展中最为资源密集的环节之一。本项目旨在深入的理解预训练任务的workload特点,定位性能瓶颈,并进行优化从而降低预训练任务的成本开销。例如从显存,通信,计算优化等方面优化MoE大规模训练任务的吞吐,支持包括通义实验室等领域方向。

更新于 2025-03-04
logo of tongyi
实习通义研究型实习生

超大规模图计算在大数据场景中发挥着越来越重要的作用。图计算的经典问题如可达性、社区检测、链路预测和模式匹配等已经在搜索推荐、金融风控等场景的实践中被验证效果显著;同时,图计算也越来越作为下一代机器学习和推荐系统的基础,成为GNN/GCN端到端解决方案的重要一环。然而,图计算在大规模应用的过程中,还有很多未决问题。如何复用已有的诸多图算法来处理超大规模图数据?如何兼顾超大规模环境下图计算的性能和用户易用性?图计算如何与TensorFlow/pyTorch等机器学习平台共同工作来完成一个端到端分析型计算?这一系列问题都十分具有挑战。 本项目包含以下研究方向: - 针对现有超大规模图计算系统中存在的海量规模计算和需要持久化存储的问题,需要设计和实现高效的存储结构和缓存机制; - 针对现有一站式图系统中存在的多范式计算问题,需要在新设计的高效存储结构中均衡在TP和AP场景下的性能表现; - 针对现实场景中图数据的高频动态变化,新设计的高效存储和缓存需要满足动态图变化的需求,并让系统具有优秀的弹性性能。

更新于 2024-11-14