阿里云研究型实习生 - 超大规模分布式LLM推理系统研究
任职要求
1、扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力; 2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心; 3、熟悉计算机体系结构基础知识,有扎实高性…
工作职责
专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。
【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。
专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。