蚂蚁金服研究型实习生-高性能推理算子
任职要求
- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。 - 熟悉GPU或国产卡硬件架构。 - 有GPU CUDA或昇腾Ascend c底层编程经验,对NVIDIA GPU了解cutlass相关接口。 - 熟悉Torch、vLLM、SGLang或TensorRT/TensorRT-LLM等业界知名推理框架中一种或多种,有深入优化者优先。 - 有大模…
工作职责
研究领域: 人工智能 项目简介: 本课题面向典型大模型(dense、MoE)进行软硬协同、算子级深入优化,算子包括计算、通信、访存等。 背景: 1. 大模型和搜推模型推理需求: 大模型长序列和Tab3推荐模型增长迅速,前者迈向MoE千~万亿参数,推荐模型增长到数百GB。 - 需求背后存在计算密集、访存密集和多卡推理的通信瓶颈。例如在LLM prefill阶段和多模态模型通常计算密集;LLM decode阶段和搜推模型通常访存密集。 2. 算力阉割:主流NV卡算力大幅阉割,应对以上需求存在较大技术挑战。业界针对模型也不断有算子的深入优化例如FlashAttn系列,FlashMLA,SageAttn等,包括量化、稀疏的算子。
专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括: 探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署; 深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎; 分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。
专注于超大规模分布式LLM推理系统的研究、探索和开发,具体职责包括: 1、探索高性能的、可扩展的分布式LLM推理引擎,支持超大规模LLM的高效部署; 2、深入优化高性能算子、运行时、分布式策略等,打造业界领先的LLM推理引擎; 3、分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的引擎技术方案,支持客户加速模型推理; 5、针对LLM重点场景构建业界领先的优化解决方案。
本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。