My Book

id: 4da13f66-e4c4-4287-a153-dcd71904e885

作者: 这是什么

发布/编辑时间: 2026年04月21日 08:05

把 Transformer、BERT、GPT 这三张经典架构图终于整理成一套了，真的很适合用来做入门理解 ✍️

很多时候我们学大模型，总是先被各种名词劝退：Self-Attention、Multi-Head、Encoder、Decoder、Masked Attention、MLM、Next Token Prediction……但如果把它们放到一张清晰的图里，你会发现逻辑一下就顺了：

Transformer 是基础框架，核心是注意力机制；
BERT 本质上是基于 Transformer Encoder 的双向理解模型，擅长“读懂”；
GPT 则是基于 Transformer Decoder 的自回归生成模型，擅长“续写”和“生成”。

这次我把三者的整体结构、核心模块、训练目标和它们之间的区别都用手绘图解的方式梳理出来了，尽量做到一眼能看懂、适合收藏复习。
如果你也总是分不清 BERT 和 GPT，或者想从架构层面真正理解大模型，这一套图应该会对你有帮助～

收藏起来，后面学 LLM、微调、Agent、RAG 的时候一定还会反复用到。
也欢迎留言告诉我，你下一张最想看哪个模型的图解：ViT、MoE、LoRA，还是 Llama？📚

#Transformer #BERT #GPT #大模型 #人工智能 #深度学习 #NLP #机器学习 #学习笔记 #AI入门