My Book

<公开笔记/Bilibili/一张图片是怎么喂给大模型的？谈谈 CPU、内存、显存、GPU.md>

简介

本文从 GPU 训练/推理场景出发，详细剖析数据从固态硬盘到 GPU 计算核心的完整传输链路，解释显存占用与 GPU 利用率的区别，以及三条主要数据通路的性能瓶颈。

组件	角色定位	关键特点
硬盘	仓库	存储数据；SSD 比 HDD 快数十倍，训练数据应放 SSD
内存	临时工作台	速度快，断电数据丢失，容量相对有限且成本较高
CPU	调度中心 / 全能博士	负责解码、调度等复杂操作，同一时间只能处理少量任务
GPU 显存	计算核心的工作台	仅存储权重和中间结果，不参与计算
GPU 计算核心	执行者 / 成千上万小学生	专门处理大规模矩阵运算（简单加减乘除），天然适合深度学习

重要区分：GPU ≠ 显存。GPU 由显存和计算核心两部分构成。加载权重到显存仅占用显存空间，计算核心空闲时 GPU 利用率为 0%（典型的"占着茅坑不拉屎"现象）。

硬盘 → 内存 → 显存 → 计算核心

补充说明：CPU 在此链路中负责解码原始数据（如将 JPG 转为张量），并可执行数据预处理、增强等操作。

精度	每参数占用空间	显存占用
FP16/BF16	16 bit (2 byte)	原始大小
INT4	4 bit (0.5 byte)	约为 FP16 的 1/4

补充说明：除节省显存外，量化还能提速的原因在于第三条瓶颈。以缓存/流水线为例，16 位模型单个数据包占 16 格，4 位量化后占 4 格，可同时传输更多数据，整体运算吞吐量提升。

显存占用高通常只说明模型权重和中间结果占用了显存，但计算核心可能处于空闲状态： - 数据还未传入计算核心（等待数据加载或传输） - 数据预处理/解码成为瓶颈 - CPU 端操作阻塞了整个流程

量化后每个参数占用空间减少，在总线带宽（如显存带宽、缓存带宽）不变的情况下，单位时间内可传输/处理更多参数，相当于提升了数据吞吐量和计算效率。