logo of tongyi

通义研究型实习生-大模型推理效率优化关键技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


候选人应为:
1.计算机及相关专业的博士或硕士研究生,且对LLM推理性能优化有深度的兴趣;
2.最好有机器学习系统及分布式系统
登录查看完整任职要求
微信扫码,1秒登录

工作职责


Qwen 团队致力于探索 AGI,目前我们正在全力朝着“多模态多任务的AI模型 / 系统” 以及“实现大模型智力飞升”两大目标展开研发,希望实现对用户及社会有益的 AI。Qwen 团队正在快速成长和发展中,希望招募顶尖的研究人员及工程师等来和我们一起实现梦想。

推理优化的工作目前主要关注高并发serving(Qwen WEB以及API服务)下的算法侧以及系统框架侧的探索与研发,主要针对Qwen系列模型, chat模型、vl模型以及audio模型。
算法侧的的优化主要包括两部分,一部分是训练推理协同优化;另一部分是post-training部分。
系统侧的优化主要职责是针对Qwen系列模型,优化系统推理性能达到最优。
包括英文材料
大模型+
机器学习+
分布式系统+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海
logo of aliyun
实习阿里云研究型实习

随着人工智能技术的飞速发展,AI 大模型对计算资源的需求日益增长。数据中心作为支撑 AI 运算的基础设施,其网络性能和稳定性直接影响 AI 模型训练的效率和推理准确性。然而,当前的数据中心网络在处理大规模数据传输、高并发请求以及复杂网络拓扑时仍然面临诸多挑战。为此,开发新一代数据中心网络技术意在提升网络传输速度、降低延迟、增强网络的容错以及故障定位等能力,对于推动 AI 技术的进一步发展具有重要意义。本项目意在聚焦于阿里云面向 AI 大模型训练的网络性能和稳定性优化技术,具体解决如下几个关键问题: 1、关于 AI 训练网络中故障的快速响应和定位问题,如何通过建立集合通信 log、上层训练框架代码 log 以及底层网络拓扑信息进行横向关联后进行精准、高校的故障根因定位; 2、AI 大模型训练要求网络能够针对故障快速恢复,恢复过程要保证新设备的热迁移,以及如何选择被迁移设备,保证客户侧无感知 3、关于下一代集合通信以及网卡侧的传输协议设计,针对性的对大模型训练和推理特征设计一套行之有效的优化技术,针对其周期性、突发式带宽的传输协议解决关键的技术挑战 交付指标: 1、发表 1-2 篇国际顶级会议论文(如 SIGCOMM/NSDI/OSDI/SOSP) 2、专利 1-2 发明专利 3、能够实际在阿里云生产环境运行的系统(非原型系统),产生实际的结果收益

更新于 2025-02-07北京|杭州
logo of aliyun
实习阿里云研究型实习

随着AI大模型的兴起和各行业对于GPU算力需求的提升,各大云厂商均在提供多租户、serverless化的GPU算力供给以支持AI开发、训练、推理等负载。其中,由于大模型越来越多地被投入实际应用,大模型推理服务所占的比重也在不断上升。然而,考虑到大模型自身的新特性以及多租户serverless集群的复杂性,如何以更高的效率及更低的成本服务众多客户的模型,仍然是一个颇具技术挑战的问题,也是提升集群整体效率的关键。本项目旨在将微观的模型推理计算优化与宏观的集群层面资源、模型、请求等编排与调度进行结合,为多租户serverless推理服务降本增效。 与传统的推理服务产品形态相比,在多租户集群中部署大模型推理服务呈现一系列新特性,包括但不限于: 1、动态性:大模型推理由于其特有的自回归计算模式,其执行过程呈现高度的动态性,结合推理请求到达时间、输入输出长度等因素的不确定性,推理执行过程往往难以预测。因此对大模型推理服务进行资源供给和调度,以及提供SLO保障等就更具挑战; 2、多服务/多模型:多租集群会同时部署多个不同租户的推理服务;同时,在同一个推理服务内,也可能包含不同模型种类,如一个基模型的不同尺寸、不同精度版本等; 3、资源共享:大模型天然呈现资源密集的特性,这也使得在多租户集群中进行多服务、多模型资源共享和复用更具挑战,需要模型/请求调度层面的感知进行协同优化; 4、异构硬件/计算模式:多租户集群中往往具备多种加速器硬件类型,不同模型类型以及推理计算的不同阶段(aka prefill/decode)对异构硬件的喜好程度也各不相同,需要更具针对性的资源分配以提升资源利用效率。 本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多租户serverless推理服务的效率: 1、平台层:定义多租户serverless推理服务的云产品形态,以及相应的计费模式、SLO等形态; 2、调度层:设计多租集群中的服务-模型-请求的统一调度架构,给出高可扩展的系统架构和高效的调度策略设计; 3、引擎层:归纳并实现上述产品和调度层面所需的引擎层次机制需求,例如高效的模型加载、切换、抢占,多模型共置,等等。

更新于 2024-07-22北京|杭州