开云体育KV cache 的内存占用随序列长度线性增长-开云 (集团) 官方网站 Kaiyun 登录入口

北大华为联手推出 KV cache 料理新样式,推理速率比前 SOTA 扶植 4.7 倍!
大模子处理长序列时,KV cache 的内存占用随序列长度线性增长,已成为制约模子部署的严峻瓶颈。
为此,来自北京大学与华为的盘考团队长入提倡了 LouisKV ——一个专为长输入、长输出等千般长序列场景联想的高效 KV cache 检索框架。

它通过立异的语义感知检索计谋与解耦的紧密化料理机制,在险些不蚀本模子精度的前提下,已毕了高达 4.7 倍的推理加快,为粗鲁 LLM 长序列推理瓶颈提供了全新的措置决议。

要道知悉
传统上,学术界与工业界提倡了多种 KV cache 优化决议,其中KV Cache Retrieval是极具远景的场地之一。
该类治安将竣工的 KV cache 卸载至容量更大的 CPU 内存中,并在推理时仅将最要道的 KV 子集检索回 GPU 进行缱绻,从而灵验缓解 GPU 显存压力。
然则,现存的 KV retrieval 治安仍濒临着限度和精度的双重瓶颈:
现存治安经常在生成每个 token 时都触发一次检索操作,这引入了遑急性评估的缱绻支出与 CPU-GPU 间的数据传输支出。在需要生成数千以致数万 token 的长输出任务中,检索操作带来的积聚支出尤为凸起,导致模子推理限度不高;
现存治安宽阔汲取固定大小的页(page)四肢检索的基本单位。这种粗粒度的区别样式,时时导致被检索的页中仅包含少许信得过要道的 KV 条件,而多量无关条件占用了珍惜的 CPU-GPU 带宽和 GPU 上的缓存预算。这不仅形成了数据传输的奢华,更遑急的是,在有限的预算下,它挤占了本不错留给其他更要道信息的位置,导致模子推理精度的下跌。
为了联想更高效的检索计谋,盘考团队最初对不同长序列任务中要道 KV 的考查格式进行推行分析,得到了两个要道知悉。
一是考查格式的时序局部性。
该本性证实为,在解码进程中生成一个语义连贯的 segment 时,segment 内相邻 token 所原谅的要道 KV 连合高度重复。
如下图 ( a ) 和 ( b ) 左下角的雷同度弧线所示,在生成现时 segment 的进程中,相邻 token 要道 KV 连合的 Jaccard 雷同度遥远保管在 0.8 以上。
该振奋得当直观,在数学推导的某一门径中,其里面的各个 token 会握续原谅谈判的上文引理或条件。

这一知悉揭示了逐 token 检索计谋的内在冗余性——既然模子在归并语义段内的原谅点保握踏实,经常的检索便非必要。
二是要道 KV 的分散格式各异性。
该本性指要道 KV 在长输入序列和长输出序列中经常证实出各异的分散格式:
长输入序列中的寥落分散:在长文档问答(图 a)等任务中,生成谜底所需的要道信息在长篇输入中呈寥落、闹翻的分散气象;
长输出序列中的密集分散:在数学推理(图 b)等任务中,模子的细心力会高度集结于先前生成的中间门径,使得要道 KV 在局部区域内呈现密集分散。
这一知悉启发咱们,传统的、粗粒度的页式 KV 检索计谋过于粗陋,无法高效支吾输入输出序列不同的细心力分散格式。
中枢联想
基于上述知悉,盘考团队提倡了一个高效的 KV cache 检索框架 LouisKV。该框架通过算法与系统的协同联想,措置了现存治安的瓶颈。
其中枢包含三大立异。
最初是语义感知的 KV 检索计谋(Semantic-Aware KV Retrieval),为诈欺时序局部性,LouisKV 扬弃了"逐 token 检索"的低效格式,引入了一种自恰当的检索计谋。
如下图 ( a ) 所示,该计谋通过轻量级机制监控语义变化。在每个解码步,它管帐算现时 token 与前一 token 的 query 向量之间的余弦雷同度 r。
若 r 高于阈值 τ,标明模子原谅点未发生显赫偏移,此时不触发检索,奏凯复用上一个 token 检索得到的要道 KV cache;
仅当 r 低于阈值 τ,标明出现语义限度,才触发一次检索操作,从 CPU 的 KV cache pool 中加载新的要道 KV cache。

该计谋的中枢上风是将腾贵的检索支出均派到多个 token 的生成进程中,极地面缩小缱绻与数据传输带来的总支出,显赫扶植推理限度。
第二是解耦的细粒度 KV 料理决议(Decoupled Fine-grained KV Management),为支吾分散各异性,LouisKV 为输入和输出序列定制了不同的 KV 料理样式,以已毕更精确的检索。
输入序列(Prefill Stage):针对要道 KV寥落分散的特色,LouisKV 汲取 K-Means 聚类。如图 ( b ) 所示,它将语义上雷同但物理位置上分散的 KV 团聚为语义簇(Semantic Clusters);
输出序列(Decode Stage):针对要道 KV局部密集的特色,LouisKV 将说合生成的 token 组织成时序(Temporal Segments)。这与模子生成连贯推理门径的活动自然对皆。
通过这种细粒度的料理,LouisKV 创建的检索单位(语义簇 / 时序段)与模子的实质细心力格式高度匹配,幸免了传统页式料理中多量无关 KV 的冗余传输,显赫扶植了检索精度。
临了,为了将算法的表面上风足够改换为驱动限度,LouisKV 在底层进行了内核级系统优化(Kernel-Level System Optimization)。
具体已毕上,团队建树了定制化的 Triton 和 CUDA 内核。内核有益用于加快框架中的要道缱绻密集型操作,包括 KV 聚类和检索进程。
通过软硬件协同优化,LouisKV 确保了立异算法大约高效地在硬件上驱动,已毕了高婉曲率与低蔓延的超卓性能。
推行限度
为了全面考证 LouisKV 的高效性,盘考团队在多个主流的长序列任务上进行了概述测试。
这些任务涵盖了长输入 - 短输出(如文档问答)、短输入 - 长输出(如数学推理)和长输入 - 长输出(如长文推理)等多种应用场景。
推行限度标明,LouisKV 成效地在推理精度和推理限度之间获取了现时最好的均衡。

推理精度层面,在统共 12 个基准测试中,LouisKV 的性能证实都极其接近将一谈 KV cache 保留在 GPU 中的 FullCache 决议(灰色虚线),后者代表了表面上的精度上限。
同期,不管是与 KV cache dropping 治安(如 H2O、RaaS),仍是与 KV cache retrieval 治安(如 Arkvale、Quest)比拟,LouisKV 在同等 KV cache 预算下均展现出更优的推理精度。
这讲明了 LouisKV 的语义感知检索和细粒度料理计谋大约精确地识别并保留对模子推理最要道的信息,灵验幸免了精度蚀本。

推理限度上,LouisKV 在三种典型的输入输出场景下证实出超卓的性能。
大幅缩小蔓延:与先进的 KV 检索治安 Arkvale 比拟,LouisKV 已毕了高达 1.4 倍至 4.7 倍的端到端推理加快;
援助更宽阔量:当处理宽阔量任务时,FullCache 会因显存不及而失效。比拟之下,LouisKV 大约在此类高负载场景下踏实驱动,从而显赫扶植了系统的灵验婉曲量。

这种显赫的限度扶植主要收获于 LouisKV 对系统中枢支出的精确优化。相较于 Arkvale ,LouisKV 大幅缩小了数据传输(Transfer)和遑急性评估(Estimation)带来的支出。
论文地址:https://arxiv.org/abs/2510.11292
一键三连「点赞」「转发」「留神心」
接待在驳斥区留住你的思法!
— 完 —
咱们正在招聘别称眼疾手快、原谅 AI 的学术剪辑实习生 � �
感深嗜的小伙伴接待原谅 � � 了解细目
� � 点亮星标 � �
科技前沿进展逐日见开云体育




