author: 趋境科技 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fb2293000000001b023af3?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBtFZPk5jpqLqhmaHT3KqMEoMnGMvybP4CCs0PFjIU7kQ=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778149134&share_id=3623ddf4f2f9404096bd0b7743ed6c1e saved: 2026-05-07 18:19:30 tags: - 笔记同步助手

id: 9b3c7e51-2edb-4671-bba8-0259e576993b

作者: 趋境科技

发布/编辑时间: 2026年05月06日 11:27

这篇聊一个大模型推理里很重要的概念:KV Cache。
你可以把它理解成模型的 “上下文记忆草稿”。
大模型生成内容时,并不是一次性把整段话全部写完,而是一个 Token 一个 Token 往外生成。
如果没有 KV Cache,每生成一个新 Token,模型都需要把前面的内容重新算一遍。
比如前面已经有了 A、B、C,模型要生成 D;
下一步要生成 E 时,如果没有缓存,就又要重新计算 A、B、C、D。
这样会产生大量重复计算。
而有了 KV Cache 之后,模型会把前面已经算过的 Key / Value 向量缓存起来。下一次生成时,就可以直接复用之前的计算结果,不用每次都从头开始算。

所以 KV Cache 的核心作用就是:
减少重复计算,降低延迟,提高生成速度。

但随着应用场景变复杂,KV Cache 也会变得越来越“大”。
比如长文本、多轮对话、高并发请求,都会让 KV Cache 占用更多存储空间,也带来更高的传输压力。
如果 KV Cache 传输慢,就可能带来几个问题:
第一,模型开始回答变慢。
用户最直接的感受就是:问题发出去后,模型迟迟没有开始输出。
第二,计算资源被浪费。
有些 GPU 明明有算力,但因为还在等缓存数据,无法马上开始工作。
第三,整体吞吐下降。
系统处理请求的速度变慢,同一时间能服务的用户也会变少。

那 KV Cache 怎么优化?

可以从几个方向理解:
1. 减少重复传输
如果多个请求有相同前缀或相似上下文,就可以复用已有缓存。
2. 做就近读取
尽量让计算节点读取离自己更近的 KV Cache,减少传输延迟。
3. 使用高速网络
比如 RDMA 这类低延迟、高带宽的传输方式,可以让缓存数据更快到达计算节点。
4. 分块传输
KV Cache 不一定要全部准备好再使用,可以分块、分阶段传输,减少等待时间。

简单总结:
KV Cache 解决的是“不要重复算”的问题。
而 KV Cache 优化,解决的是“怎么更快、更省地复用”。
它看起来只是一个缓存机制,但在大模型推理里,会直接影响响应速度、成本和 GPU 利用率。
#infra #趋境科技#KVCache #小白也能懂 #大模型推理 #每天一个小知识 #干货 #知识面拓展

ImageImageImage


内容效果不满意?点此反馈