阿里云研究型实习生 - 大模型推理加速以及高效微调核心技术研究
任职要求
1.计算机科学、人工智能、软件工程或相关专业在读博士,硕士; 2.有相关领域顶会论文(包括但不限于ICML,ICLR,AAAI,NeuralPS,VLDB,SIGMOD等)发表经验; 3.熟练掌握Linux环境下的C++/Go/Python/Shell等1至2种以上语言,具备复杂系统的设计开发与调试能力; 4.熟悉至少一种大模型推理或微调框架,包括但不限于:DeepSpeed、LLaMA-Factory、vLLM、SGLang等; 5.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。 加分项: 1.理解GPU硬件架构,理解GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验; 2.有大模型推理或微调相关的技术落地经验,比如:KVCache相关优化的实现。
工作职责
职位描述: 1.设计和实现面向大模型推理的多层级存储系统,综合利用多种硬件进行数据的存储和迁移管理,优化大模型缓存利用率,提升推理性能; 2.设计负载感知的推理框架自调优能力,设计高效的指标采集模块,能够根据对不同负载自动调优推理框架的参数; 3.优化模型量化以及模型卸载技术,进一步提升单机场景下支持的模型规模; 4.设计高效微调框架,集成并优化微调算法,实现动态策略调度模块,基于任务特征挑选最合适的微调方案。
随着AI大模型的兴起和各行业对于GPU算力需求的提升,各大云厂商均在提供多租户、serverless化的GPU算力供给以支持AI开发、训练、推理等负载。其中,由于大模型越来越多地被投入实际应用,大模型推理服务所占的比重也在不断上升。然而,考虑到大模型自身的新特性以及多租户serverless集群的复杂性,如何以更高的效率及更低的成本服务众多客户的模型,仍然是一个颇具技术挑战的问题,也是提升集群整体效率的关键。本项目旨在将微观的模型推理计算优化与宏观的集群层面资源、模型、请求等编排与调度进行结合,为多租户serverless推理服务降本增效。 与传统的推理服务产品形态相比,在多租户集群中部署大模型推理服务呈现一系列新特性,包括但不限于: 1、动态性:大模型推理由于其特有的自回归计算模式,其执行过程呈现高度的动态性,结合推理请求到达时间、输入输出长度等因素的不确定性,推理执行过程往往难以预测。因此对大模型推理服务进行资源供给和调度,以及提供SLO保障等就更具挑战; 2、多服务/多模型:多租集群会同时部署多个不同租户的推理服务;同时,在同一个推理服务内,也可能包含不同模型种类,如一个基模型的不同尺寸、不同精度版本等; 3、资源共享:大模型天然呈现资源密集的特性,这也使得在多租户集群中进行多服务、多模型资源共享和复用更具挑战,需要模型/请求调度层面的感知进行协同优化; 4、异构硬件/计算模式:多租户集群中往往具备多种加速器硬件类型,不同模型类型以及推理计算的不同阶段(aka prefill/decode)对异构硬件的喜好程度也各不相同,需要更具针对性的资源分配以提升资源利用效率。 本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多租户serverless推理服务的效率: 1、平台层:定义多租户serverless推理服务的云产品形态,以及相应的计费模式、SLO等形态; 2、调度层:设计多租集群中的服务-模型-请求的统一调度架构,给出高可扩展的系统架构和高效的调度策略设计; 3、引擎层:归纳并实现上述产品和调度层面所需的引擎层次机制需求,例如高效的模型加载、切换、抢占,多模型共置,等等。
1. 负责大模型(MLLMs/LLMs)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 负责多模态AIGC的创意玩法探索,以及细粒度可控的多模态内容生成和编辑、不同输入条件下的高质量视频生成技术研究等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。