logo of antgroup

蚂蚁金服研究型实习生-高性能推理算子

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。
- 熟悉GPU或国产卡硬件架构。
- 有GPU CUDA或昇腾Ascend c底层编程经验,对NVIDIA GPU了解cutlass相关接口。
- 熟悉Torch、vLLMSGLangTensorRT/TensorRT-LLM等业界知名推理框架中一种或多种,有深入优化者优先。
- 有大模型模型(典型dense 或 MoE)推理算子的编程和性能优化经验,特别是GEMM计算、访存、通信或有稀疏、量化的深入优化经验等
- 在国际HPC和系统领域顶会发表过相关研究论文者优先。例如HPCA, PPoPP, SC, ASPLOS, OSDI, SOSP, ATC等。 
- 有追求极致的热情,直面问题的勇气,和不断突破、死磕到底的魄力。
- 至少3个月实习投入。

工作职责


研究领域:
  人工智能
项目简介:
  本课题面向典型大模型(dense、MoE)进行软硬协同、算子级深入优化,算子包括计算、通信、访存等。
背景:
1. 大模型和搜推模型推理需求: 大模型长序列和Tab3推荐模型增长迅速,前者迈向MoE千~万亿参数,推荐模型增长到数百GB。
- 需求背后存在计算密集、访存密集和多卡推理的通信瓶颈。例如在LLM prefill阶段和多模态模型通常计算密集;LLM decode阶段和搜推模型通常访存密集。

2. 算力阉割:主流NV卡算力大幅阉割,应对以上需求存在较大技术挑战。业界针对模型也不断有算子的深入优化例如FlashAttn系列,FlashMLA,SageAttn等,包括量化、稀疏的算子。
包括英文材料
CUDA+
C+
大模型+
vLLM+
TensorRT+
HPC+
SGLang+
相关职位

logo of aliyun
实习阿里云研究型实习

本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。

更新于 2024-07-12
logo of aliyun
实习阿里云研究型实习

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。

更新于 2025-02-07
logo of tongyi
实习通义研究型实习生

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。

更新于 2025-07-10
logo of aliyun
实习阿里云研究型实习

专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括: 探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署; 深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎; 分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。

更新于 2025-02-13