通义研究型实习生-大模型推理效率优化关键技术研究

实习兼职通义研究型实习生2024-10-09地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

候选人应为：
1.计算机及相关专业的博士或硕士研究生，且对LLM推理性能优化有深度的兴趣；
2.最好有机器学习系统及分布式系统…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

Qwen 团队致力于探索 AGI，目前我们正在全力朝着“多模态多任务的AI模型 / 系统” 以及“实现大模型智力飞升”两大目标展开研发，希望实现对用户及社会有益的 AI。Qwen 团队正在快速成长和发展中，希望招募顶尖的研究人员及工程师等来和我们一起实现梦想。

推理优化的工作目前主要关注高并发serving（Qwen WEB以及API服务）下的算法侧以及系统框架侧的探索与研发，主要针对Qwen系列模型， chat模型、vl模型以及audio模型。
算法侧的的优化主要包括两部分，一部分是训练推理协同优化；另一部分是post-training部分。
系统侧的优化主要职责是针对Qwen系列模型，优化系统推理性能达到最优。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

机器学习+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态音频大模型生成效率优化与可控合成技术研究

实习通义研究型实习生

随着多模态音频大模型（如GPT-4o）的突破性发展，语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡（如思维链机制引入导致推理时延显著增加）及可控性-鲁棒性不足（如时序同步性差、跨模态数据依赖性强）的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术，重点攻克Test-Time-Scaling曲线建模（动态CoT启动、关键词压缩、隐状态连续表征）、扩散-语言模型融合架构设计、音视频统一生成等核心问题，旨在突破长序列推理效率瓶颈并增强跨模态对齐能力，推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

更新于 2025-04-17杭州|上海

研究型实习生 - Serverless大模型推理服务优化研究

实习阿里云研究型实习

随着AI大模型的兴起和各行业对于GPU算力需求的提升，各大云厂商均在提供多租户、serverless化的GPU算力供给以支持AI开发、训练、推理等负载。其中，由于大模型越来越多地被投入实际应用，大模型推理服务所占的比重也在不断上升。然而，考虑到大模型自身的新特性以及多租户serverless集群的复杂性，如何以更高的效率及更低的成本服务众多客户的模型，仍然是一个颇具技术挑战的问题，也是提升集群整体效率的关键。本项目旨在将微观的模型推理计算优化与宏观的集群层面资源、模型、请求等编排与调度进行结合，为多租户serverless推理服务降本增效。与传统的推理服务产品形态相比，在多租户集群中部署大模型推理服务呈现一系列新特性，包括但不限于： 1、动态性：大模型推理由于其特有的自回归计算模式，其执行过程呈现高度的动态性，结合推理请求到达时间、输入输出长度等因素的不确定性，推理执行过程往往难以预测。因此对大模型推理服务进行资源供给和调度，以及提供SLO保障等就更具挑战； 2、多服务/多模型：多租集群会同时部署多个不同租户的推理服务；同时，在同一个推理服务内，也可能包含不同模型种类，如一个基模型的不同尺寸、不同精度版本等； 3、资源共享：大模型天然呈现资源密集的特性，这也使得在多租户集群中进行多服务、多模型资源共享和复用更具挑战，需要模型/请求调度层面的感知进行协同优化； 4、异构硬件/计算模式：多租户集群中往往具备多种加速器硬件类型，不同模型类型以及推理计算的不同阶段（aka prefill/decode）对异构硬件的喜好程度也各不相同，需要更具针对性的资源分配以提升资源利用效率。本项目将着眼于以下几个层面技术，以解决上述特性带来的挑战，提升多租户serverless推理服务的效率： 1、平台层：定义多租户serverless推理服务的云产品形态，以及相应的计费模式、SLO等形态； 2、调度层：设计多租集群中的服务-模型-请求的统一调度架构，给出高可扩展的系统架构和高效的调度策略设计； 3、引擎层：归纳并实现上述产品和调度层面所需的引擎层次机制需求，例如高效的模型加载、切换、抢占，多模型共置，等等。

更新于 2024-07-22北京|杭州

研究型实习生-大模型高效强化学习系统研究

实习阿里云研究型实习

我们正在寻找对大模型系统优化充满热情的优秀在读学生，参与大模型后训练阶段（Post-Training）关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体（Agent）系统等方面的系统级优化工作，探索高MFU、低延迟、高吞吐的下一代AI基础设施。如果你热爱系统与AI的交叉领域，希望在真实超大规模场景中打磨技术，欢迎加入我们，与顶尖研究者和工程师共同推动大模型系统的技术边界！研究方向与实习内容：你将从以下四个核心方向中选择1-2个深入参与，开展系统性研究与工程实现： 1. 后训练 MFU（Model FLOPs Utilization）优化研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈；设计高MFU的训练策略与系统支持，优化计算密度（如序列填充、混合批次、梯度累积等）；探索算力利用率提升路径，结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化针对RLHF中大量采样推理的需求，优化推理延迟与吞吐（如Speculative Decoding、KV Cache复用、动态批处理）；设计轻量、高效的推理引擎，支持多轮对话、长上下文、流式生成等复杂场景；探索训练-采样协同优化，降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化构建解耦的“训练-采样”系统架构，支持高并发采样与异步训练更新；研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制；实现弹性扩缩容、故障恢复、版本管理等系统能力，提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑研究面向复杂任务的Agent执行框架，优化工具调用、状态管理、多步规划的系统性能；构建低延迟、高并发的Agent运行时环境，支持大规模仿真与自动评估；探索Agent工作流的可复现性、可观测性与调试支持，提升研发效率。

更新于 2025-09-05北京

研究型实习生-安全域多模态大模型架构和效率优化

实习研究型实习生

研究领域：人工智能项目简介：课题1：音视频细粒度理解与token压缩，负责人：默宸，HC数：1个随着大模型时代的到来，图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息，还能保留关键语义特征，从而显著提升图像的细粒度理解能力，同时满足高时效性任务的需求。基于此，我们希望能够开展基于query牵引与信息密度的Token压缩算法研究，针对视频内容的特点，设计高效的压缩与理解方案，以推动视频审核算法的性能优化与实际落地。课题2：基于规则动态化Token交互的高效视频理解与推理模型研究，负责人：夜兰，HC数：1个本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型，以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取，结合视觉Token压缩技术，显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制，实现规则与视觉信息的高效联合提取，同时结合多任务学习框架，支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度，适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务，为实际应用场景提供高效、细粒度的视频理解解决方案。课题3：视频开集信息检测和定位，负责人：默宸，HC数：1个随着视频内容生态的爆发式增长，传统闭集检测方法在面对业务快速迭代需求时面临显著挑战，难以泛化至开放场景下的新概念检测，且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架，通过多模态语义对齐与时空注意力机制，实现对任意指定内容的视频检索（包含时空定位）。该技术将推动视频审核从定制化开发向通用化检测转型。课题4：隐式深度推理与动态步骤压缩的协同优化架构研究，负责人：侯猫/亘郁，HC数：2个现有大语言模型在复杂推理任务中面临根本性效率瓶颈：基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长，KV缓存存储开销线性增加。传统显式推理方法（如Chain-of-Thought）通过生成冗长中间步骤提升精度，却加剧了计算资源消耗；而隐式推理虽能压缩计算步骤，但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发，不仅实现动态剪枝冗余中间思考步骤，同时通过隐状态迭代实现深度计算扩展，从而达到在保持/提升推理精度的同时，将复杂任务的计算负载降低5，突破现有模型在长文本生成与多跳推理中的效率天花板。

上海|杭州