蚂蚁金服研究型实习生-高性能推理算子
任职要求
- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。 - 熟悉GPU或国产卡硬件架构。 - 有GPU CUDA或昇腾Ascend c底层编程经验,对NVIDIA GPU了解cutlass相关接口。 - 熟悉Torch、vLLM、SGLang或TensorRT/TensorRT-LLM等业界知名推理框架中一种或多种,有深入优化者优先。 - 有大模型模型(典型dense 或 MoE)推理算子的编程和性能优化经验,特别是GEMM计算、访存、通信或有稀疏、量化的深入优化经验等 - 在国际HPC和系统领域顶会发表过相关研究论文者优先。例如HPCA, PPoPP, SC, ASPLOS, OSDI, SOSP, ATC等。 - 有追求极致的热情,直面问题的勇气,和不断突破、死磕到底的魄力。 - 至少3个月实习投入。
工作职责
研究领域: 人工智能 项目简介: 本课题面向典型大模型(dense、MoE)进行软硬协同、算子级深入优化,算子包括计算、通信、访存等。 背景: 1. 大模型和搜推模型推理需求: 大模型长序列和Tab3推荐模型增长迅速,前者迈向MoE千~万亿参数,推荐模型增长到数百GB。 - 需求背后存在计算密集、访存密集和多卡推理的通信瓶颈。例如在LLM prefill阶段和多模态模型通常计算密集;LLM decode阶段和搜推模型通常访存密集。 2. 算力阉割:主流NV卡算力大幅阉割,应对以上需求存在较大技术挑战。业界针对模型也不断有算子的深入优化例如FlashAttn系列,FlashMLA,SageAttn等,包括量化、稀疏的算子。
本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。
专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。
专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。