author: 无痕 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fc4de7000000003501e26c?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB5zwz-cSjxFagxvfnztbEKSd5jyipzuJ5JD6Qoo0guq8=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778147218&share_id=2f9889b516174294aba5a33f33fe3d99 saved: 2026-05-07 17:47:21 tags: - 笔记同步助手
id: 5643c4c2-64f6-4157-b7b0-f7ff99024456
作者: 无痕
发布/编辑时间: 2026年05月07日 08:31
KV Cache 的本质是:在自回归解码时,把历史 token 在每一层 attention 中已经算好的 Key 和 Value 缓存下来,后续生成新 token 时直接复用。
优化方向:
架构级:减少或压缩 KV,例如 MQA、GQA、MLA、CLA。
存储级:降低 KV 精度,例如 INT8/INT4/KIVI/TurboQuant。
系统级:更高效管理 KV,例如 PagedAttention、prefix cache、offload、static/dynamic cache。
策略级:减少保留的 KV,例如 sliding window、sink cache、H2O、SnapKV、PyramidKV。#面经 #大模型 #KV_cache



评论
- 链锯延伸模块: image2 画的吗[doge]
- 无痕: 对
内容效果不满意?点此反馈