logo of antgroup

蚂蚁金服研究型实习生-大模型推理缓存与稀疏计算技术

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


- 正在攻读计算机科学或相关STEM领域的优秀高年级本科生或硕士、博士生。
- 熟悉PyTorchvLLMSGLangTensorRT等业界知名推理框架中一种或多种,有深入优化者优先。
- 熟悉以下一种或多种编程语言: C/C++PythonCUDA等。
- 对典型大模型结构、异构硬件(例如NVIDIA GPU)和典型优化方法有深入了解和优化经验者优先。
- 在国际领域顶会或期刊发表过相关研究论文者优先。
- 具有追求极致的热情,直面问题的勇气,和不断突破、死磕到底的魄力。
- 希望可至少3个月全职投入实习工作。

工作职责


研究领域:
  人工智能
项目简介:
  本课题面向大模型推理特别是长序列(包括prompt和CoT reasoning)进行软硬协同、深入优化探索。
1. 大模型推理需求:大模型推理的模型规模和序列长度增长迅速,模型规模面向千亿至万亿参数,序列长度面向64K或更长。 
2.软硬协同深入优化空间:包括从算法到算力、访存、通信等到分布式,以应对大规模、长序列在线推理的挑战。
包括英文材料
PyTorch+
vLLM+
TensorRT+
C+
C+++
Python+
CUDA+
大模型+
SGLang+
相关职位

logo of aliyun
实习阿里云研究型实习

职位描述: 1.设计和实现面向大模型推理的多层级存储系统,综合利用多种硬件进行数据的存储和迁移管理,优化大模型缓存利用率,提升推理性能; 2.设计负载感知的推理框架自调优能力,设计高效的指标采集模块,能够根据对不同负载自动调优推理框架的参数; 3.优化模型量化以及模型卸载技术,进一步提升单机场景下支持的模型规模; 4.设计高效微调框架,集成并优化微调算法,实现动态策略调度模块,基于任务特征挑选最合适的微调方案。

更新于 2025-07-02
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 项目背景描述 System For Foundation Models:大模型推理需要不同于传统云计算微服务不同的基础设施,包括但不限于推理引擎、异构计算框架、向量数据库、缓存系统、高可用架构等等,本课题旨在探索基础设施新技术、新优化、新算法,已取得最佳大模型推理性能和稳定性。 项目价值描述 本项目旨在通过优化大模型推理服务基础设施性能和稳定性,提升大模型推理性能,提升SLA,减少大模型部署成本,降低业务侧感知的服务延迟。

logo of aliyun
实习阿里云研究型实习

当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。

更新于 2025-07-02