My Book

author: 无痕 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fc4de7000000003501e26c?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB5zwz-cSjxFagxvfnztbEKSd5jyipzuJ5JD6Qoo0guq8=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778147218&share_id=2f9889b516174294aba5a33f33fe3d99 saved: 2026-05-07 17:47:21 tags: - 笔记同步助手

id: 5643c4c2-64f6-4157-b7b0-f7ff99024456

作者: 无痕

发布/编辑时间: 2026年05月07日 08:31

KV Cache 的本质是：在自回归解码时，把历史 token 在每一层 attention 中已经算好的 Key 和 Value 缓存下来，后续生成新 token 时直接复用。
优化方向：
架构级：减少或压缩 KV，例如 MQA、GQA、MLA、CLA。
存储级：降低 KV 精度，例如 INT8/INT4/KIVI/TurboQuant。
系统级：更高效管理 KV，例如 PagedAttention、prefix cache、offload、static/dynamic cache。
策略级：减少保留的 KV，例如 sliding window、sink cache、H2O、SnapKV、PyramidKV。#面经 #大模型 #KV_cache

链锯延伸模块: image2 画的吗[doge]
- 无痕: 对

内容效果不满意？点此反馈

id: 5643c4c2-64f6-4157-b7b0-f7ff99024456

评论