logo of tongyi

通义研究型实习生-大模型推理效率优化关键技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


候选人应为:
1.计算机及相关专业的博士或硕士研究生,且对LLM推理性能优化有深度的兴趣;
2.最好有机器学习系统及分布式系统相关研究和开发经验,了解或熟悉vLLMPyTorchRayLLM推理相关系统;
3.需要产出论文和专利等高水平的学术成果。

工作职责


Qwen 团队致力于探索 AGI,目前我们正在全力朝着“多模态多任务的AI模型 / 系统” 以及“实现大模型智力飞升”两大目标展开研发,希望实现对用户及社会有益的 AI。Qwen 团队正在快速成长和发展中,希望招募顶尖的研究人员及工程师等来和我们一起实现梦想。

推理优化的工作目前主要关注高并发serving(Qwen WEB以及API服务)下的算法侧以及系统框架侧的探索与研发,主要针对Qwen系列模型, chat模型、vl模型以及audio模型。
算法侧的的优化主要包括两部分,一部分是训练推理协同优化;另一部分是post-training部分。
系统侧的优化主要职责是针对Qwen系列模型,优化系统推理性能达到最优。
包括英文材料
大模型+
机器学习+
分布式系统+
vLLM+
PyTorch+
Ray+
相关职位

logo of tongyi
实习通义研究型实习生

随着多模态音频大模型(如GPT-4o)的突破性发展,语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡(如思维链机制引入导致推理时延显著增加)及可控性-鲁棒性不足(如时序同步性差、跨模态数据依赖性强)的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术,重点攻克Test-Time-Scaling曲线建模(动态CoT启动、关键词压缩、隐状态连续表征)、扩散-语言模型融合架构设计、音视频统一生成等核心问题,旨在突破长序列推理效率瓶颈并增强跨模态对齐能力,推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

更新于 2025-04-17
logo of aliyun
实习阿里云研究型实习

随着AI大模型的兴起和各行业对于GPU算力需求的提升,各大云厂商均在提供多租户、serverless化的GPU算力供给以支持AI开发、训练、推理等负载。其中,由于大模型越来越多地被投入实际应用,大模型推理服务所占的比重也在不断上升。然而,考虑到大模型自身的新特性以及多租户serverless集群的复杂性,如何以更高的效率及更低的成本服务众多客户的模型,仍然是一个颇具技术挑战的问题,也是提升集群整体效率的关键。本项目旨在将微观的模型推理计算优化与宏观的集群层面资源、模型、请求等编排与调度进行结合,为多租户serverless推理服务降本增效。 与传统的推理服务产品形态相比,在多租户集群中部署大模型推理服务呈现一系列新特性,包括但不限于: 1、动态性:大模型推理由于其特有的自回归计算模式,其执行过程呈现高度的动态性,结合推理请求到达时间、输入输出长度等因素的不确定性,推理执行过程往往难以预测。因此对大模型推理服务进行资源供给和调度,以及提供SLO保障等就更具挑战; 2、多服务/多模型:多租集群会同时部署多个不同租户的推理服务;同时,在同一个推理服务内,也可能包含不同模型种类,如一个基模型的不同尺寸、不同精度版本等; 3、资源共享:大模型天然呈现资源密集的特性,这也使得在多租户集群中进行多服务、多模型资源共享和复用更具挑战,需要模型/请求调度层面的感知进行协同优化; 4、异构硬件/计算模式:多租户集群中往往具备多种加速器硬件类型,不同模型类型以及推理计算的不同阶段(aka prefill/decode)对异构硬件的喜好程度也各不相同,需要更具针对性的资源分配以提升资源利用效率。 本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多租户serverless推理服务的效率: 1、平台层:定义多租户serverless推理服务的云产品形态,以及相应的计费模式、SLO等形态; 2、调度层:设计多租集群中的服务-模型-请求的统一调度架构,给出高可扩展的系统架构和高效的调度策略设计; 3、引擎层:归纳并实现上述产品和调度层面所需的引擎层次机制需求,例如高效的模型加载、切换、抢占,多模型共置,等等。

更新于 2024-07-22
logo of aliyun
实习阿里云研究型实习

我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。

更新于 2025-09-05
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。