logo of antgroup

蚂蚁金服研究型实习生-高性能推理算子

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。
- 熟悉GPU或国产卡硬件架构。
- 有GPU CUDA或昇腾Ascend c底层编程经验,对NVIDIA GPU了解cutlass相关接口。
- 熟悉Torch、vLLM、SGLang或TensorRT/TensorRT-LLM等业界知名推理框架中一种或多种,有深入优化者优先。
- 有大模…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


研究领域:
  人工智能
项目简介:
  本课题面向典型大模型(dense、MoE)进行软硬协同、算子级深入优化,算子包括计算、通信、访存等。
背景:
1. 大模型和搜推模型推理需求: 大模型长序列和Tab3推荐模型增长迅速,前者迈向MoE千~万亿参数,推荐模型增长到数百GB。
- 需求背后存在计算密集、访存密集和多卡推理的通信瓶颈。例如在LLM prefill阶段和多模态模型通常计算密集;LLM decode阶段和搜推模型通常访存密集。

2. 算力阉割:主流NV卡算力大幅阉割,应对以上需求存在较大技术挑战。业界针对模型也不断有算子的深入优化例如FlashAttn系列,FlashMLA,SageAttn等,包括量化、稀疏的算子。
包括英文材料
CUDA+
C+
大模型+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。

更新于 2024-07-12北京|杭州
logo of aliyun
实习阿里云研究型实习

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。

更新于 2025-02-07北京|上海
logo of tongyi
实习通义研究型实习生

专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效推理; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、针对LLM重点场景构建业界领先的框架和方案。

更新于 2025-07-10北京|杭州
logo of aliyun
实习阿里云研究型实习

专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括: 探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署; 深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎; 分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。

更新于 2025-02-13杭州