蚂蚁金服研究型实习生-高性能推理算子

实习兼职研究型实习生地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。
- 熟悉GPU或国产卡硬件架构。
- 有GPU CUDA或昇腾Ascend c底层编程经验，对NVIDIA GPU了解cutlass相关接口。
- 熟悉Torch、vLLM、SGLang或TensorRT/TensorRT-LLM等业界知名推理框架中一种或多种，有深入优化者优先。
- 有大模…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  人工智能
项目简介：
  本课题面向典型大模型（dense、MoE）进行软硬协同、算子级深入优化，算子包括计算、通信、访存等。
背景：
1. 大模型和搜推模型推理需求: 大模型长序列和Tab3推荐模型增长迅速，前者迈向MoE千~万亿参数，推荐模型增长到数百GB。
- 需求背后存在计算密集、访存密集和多卡推理的通信瓶颈。例如在LLM prefill阶段和多模态模型通常计算密集；LLM decode阶段和搜推模型通常访存密集。

2. 算力阉割:主流NV卡算力大幅阉割，应对以上需求存在较大技术挑战。业界针对模型也不断有算子的深入优化例如FlashAttn系列，FlashMLA，SageAttn等，包括量化、稀疏的算子。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

CUDA+

C+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 大语言模型推理优化

实习阿里云研究型实习

本项目主要关注大语言模型的部署环节，以解决大语言模型推理框架中的如下技术问题： 1. 优化单服务实例的性能和成本：配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子（Attention）实现方式、通过编译优化等手段提升模型推理性能；结合大语言模型服务的场景特性，创新请求调度算法，优化用户体验和系统吞吐；结合算法创新，采用上下文稀疏、投机采样等方法加速解码（Decoding）过程。 2. 异构硬件适配：以编译技术为基础，探索统一的跨平台优化方法，能敏捷地完成主流的GPU/CPU/NPU等硬件的适配，并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法，将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中，并保证SLA。通过请求调度方法的创新、资源共享方法创新，降低总体部署成本、提升资源利用率和弹性。

更新于 2024-07-12北京|杭州

研究型实习生 - 超大规模分布式LLM推理系统研究

实习阿里云研究型实习

专注于超大规模分布式LLM推理系统的研究、探索和开发，具体职责包括： 1、探索高性能的、可扩展的分布式LLM推理引擎，支持超大规模LLM的高效部署； 2、深入优化高性能算子、运行时、分布式策略等，打造业界领先的LLM推理引擎； 3、分析现有引擎和典型负载的性能瓶颈，提出并实现创新的优化技术； 4、结合阿里云PAI平台产品服务，提供可靠高效的引擎技术方案，支持客户加速模型推理； 5、针对LLM重点场景构建业界领先的优化解决方案。

更新于 2025-02-07北京|上海

研究型实习生-大规模预训练及推理的关键技术研究

实习通义研究型实习生

专注于超大规模分布式LLM推理系统的研究、探索和开发，具体职责包括： 1、探索高性能的、可扩展的分布式LLM推理引擎，支持超大规模LLM的高效推理； 2、深入优化高性能算子、运行时、分布式策略等，打造业界领先的LLM推理引擎； 3、分析现有引擎和典型负载的性能瓶颈，提出并实现创新的优化技术； 4、针对LLM重点场景构建业界领先的框架和方案。

更新于 2025-07-10北京|杭州

研究型实习生 - 大模型训推场景超长序列并行的通信计算重叠

实习阿里云研究型实习

专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发，具体职责包括：探索高性能、可扩展的分布式 DiT 推理引擎，支持大规模文生视频/文生图场景的高效部署；深入优化高性能算子、运行时、分布式策略等，打造业界领先的DiT推理引擎；分析现有引擎和典型负载的性能瓶颈，提出并实现创新的优化技术；针对文生视频/文生图等重点场景，构建业界领先的优化解决方案。

更新于 2025-02-13杭州