My Book

author: 趋境科技 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fb2293000000001b023af3?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBtFZPk5jpqLqhmaHT3KqMEoMnGMvybP4CCs0PFjIU7kQ=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778149134&share_id=3623ddf4f2f9404096bd0b7743ed6c1e saved: 2026-05-07 18:19:30 tags: - 笔记同步助手

id: 9b3c7e51-2edb-4671-bba8-0259e576993b

作者: 趋境科技

发布/编辑时间: 2026年05月06日 11:27

这篇聊一个大模型推理里很重要的概念：KV Cache。
你可以把它理解成模型的 “上下文记忆草稿”。
大模型生成内容时，并不是一次性把整段话全部写完，而是一个 Token 一个 Token 往外生成。
如果没有 KV Cache，每生成一个新 Token，模型都需要把前面的内容重新算一遍。
比如前面已经有了 A、B、C，模型要生成 D；
下一步要生成 E 时，如果没有缓存，就又要重新计算 A、B、C、D。
这样会产生大量重复计算。
而有了 KV Cache 之后，模型会把前面已经算过的 Key / Value 向量缓存起来。下一次生成时，就可以直接复用之前的计算结果，不用每次都从头开始算。

所以 KV Cache 的核心作用就是：
减少重复计算，降低延迟，提高生成速度。

但随着应用场景变复杂，KV Cache 也会变得越来越“大”。
比如长文本、多轮对话、高并发请求，都会让 KV Cache 占用更多存储空间，也带来更高的传输压力。
如果 KV Cache 传输慢，就可能带来几个问题：
第一，模型开始回答变慢。
用户最直接的感受就是：问题发出去后，模型迟迟没有开始输出。
第二，计算资源被浪费。
有些 GPU 明明有算力，但因为还在等缓存数据，无法马上开始工作。
第三，整体吞吐下降。
系统处理请求的速度变慢，同一时间能服务的用户也会变少。

那 KV Cache 怎么优化？

可以从几个方向理解：
1. 减少重复传输
如果多个请求有相同前缀或相似上下文，就可以复用已有缓存。
2. 做就近读取
尽量让计算节点读取离自己更近的 KV Cache，减少传输延迟。
3. 使用高速网络
比如 RDMA 这类低延迟、高带宽的传输方式，可以让缓存数据更快到达计算节点。
4. 分块传输
KV Cache 不一定要全部准备好再使用，可以分块、分阶段传输，减少等待时间。

简单总结：
KV Cache 解决的是“不要重复算”的问题。
而 KV Cache 优化，解决的是“怎么更快、更省地复用”。
它看起来只是一个缓存机制，但在大模型推理里，会直接影响响应速度、成本和 GPU 利用率。
#infra #趋境科技#KVCache #小白也能懂 #大模型推理 #每天一个小知识 #干货 #知识面拓展

内容效果不满意？点此反馈