小红书【Ace顶尖实习生】面向长序列推理的KVCache优化技术研究
任职要求
1、不限年级,本科及以上在读,人工智能/计算机/软件工程等相关专业优先; 2、优秀的代码能力,熟练掌握至少一门编程语言,包括但不限于Python/C/C++/Java/Go等其中一门开发语言; 3、有分…
工作职责
本课题旨在通过优化Transformer模型中的KV缓存机制,解决处理长序列数据时遇到的计算和内存挑战,目标是减少资源消耗、降低延迟并提高效率。 研究方向包括设计高效的KV缓存管理策略、适应不同应用场景的缓存优化以及并行与分布式处理优化。预期将成果应用于自然语言处理、视频分析等领域,为处理超长序列数据提供更加高效和可扩展的解决方案。
随着广告系统从“流量匹配”向“深度理解”演进,传统的模型范式在面对用户动态变化的兴趣与复杂决策场景时,逐渐显露出语义理解浅、策略同质化等局限。本课题“面向千人千面Agent的广告大模型能力构建”,旨在探索如何利用大语言模型结合广告个性化投放系统赋予智能体的核心能力,实现真正意义上的个性化智慧决策。 该课题会结合个性化建模、内容理解、大语言模型等能力,对用户心智做深度建模,依赖于历史行为长记忆的同时,能利用自然语言理解用户实时的微观意图、情感倾向与潜在需求。基于不同用户及不同上下文,能为不同用户量身定制差异化的广告投放,并且Agent能够以自然语言阐述其推理依据,让投放逻辑从“黑盒”走向透明,同时通过与用户反馈的持续交互,不断自我修正与进化。 这里面涉及到多方面的能力研究,包括基于内容的个性化能力的构建,个性化能力与大语言模型能力的结合,多模态融合能力,面向广告投放Agentic能力的微调能力以及面向广告投放系统的应用。
本课题研究面向超大规模机器学习模型的极致训练与推理性能优化,覆盖搜索、广告、推荐(搜广推)系统与大语言模型(LLM)两大核心方向。随着模型参数规模从十亿级跃升至万亿级、训练数据从 TB 迈向 PB、在线推理 QPS 持续攀升,底层算力、显存带宽、通信效率与系统稳定性面临前所未有的挑战。本课题致力于在算法、系统、硬件三层协同维度上构建业界领先的端到端解决方案,打造面向异构超大规模集群的极致性能基础设施。 在搜广推方向,研究内容涵盖稀疏 Embedding 的分布式存储与动态扩缩容、HugeCTR/TorchRec 级别的 GPU 训练加速、参数服务器与 AllReduce 混合并行架构、Embedding 通信压缩与流水化、特征工程与样本流的零拷贝优化,以及在线推理的低延迟图编译、算子融合、量化蒸馏与多模型共置调度,目标是在万亿参数稀疏模型下实现训练吞吐与推理时延的双重突破。 在 LLM 方向,研究内容覆盖 3D/4D 混合并行(DP/TP/PP/EP/SP)、MoE 专家路由与 All-to-All 通信优化、长上下文训练(Ring/Context Parallel)、FP8/FP4 低精度训练、RLHF 与强化学习训练框架;推理侧聚焦 PD 分离、Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 分级缓存、量化(GPTQ/AWQ/SmoothQuant)以及面向 H 系列/国产芯片的 Kernel 极致优化(CUTLASS/Triton/CUDA)。
本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。
随着大型语言模型(LLMs)的快速发展,其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速,旨在研究高效的Chain-of-Thought(CoT)压缩算法,以优化模型的推理过程,减少计算开销并提高响应速度,同时保持推理的准确性;同时,课题将深入分析现有LLMs的推理机制,探索如何通过算法创新来实现CoT的高效压缩。 具体研究内容包括但不限于:基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究,期望能够为LLMs的高效推理提供新的理论和技术支持,推动其在更多实际场景中的广泛应用。