source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69e72ecf000000002301de24?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBfP0h94Z8Q67Ji41cFDlUbUMHlODXT1vYRrzsNn2YZyY=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910010&share_id=91dbee4837b14f948777843f0eda69ed saved: 2026-05-04 23:53:53

id: 4da13f66-e4c4-4287-a153-dcd71904e885

作者: 这是什么

发布/编辑时间: 2026年04月21日 08:05

把 Transformer、BERT、GPT 这三张经典架构图终于整理成一套了,真的很适合用来做入门理解 ✍️

很多时候我们学大模型,总是先被各种名词劝退:Self-Attention、Multi-Head、Encoder、Decoder、Masked Attention、MLM、Next Token Prediction……但如果把它们放到一张清晰的图里,你会发现逻辑一下就顺了:

Transformer 是基础框架,核心是注意力机制;
BERT 本质上是基于 Transformer Encoder 的双向理解模型,擅长“读懂”;
GPT 则是基于 Transformer Decoder 的自回归生成模型,擅长“续写”和“生成”。

这次我把三者的整体结构、核心模块、训练目标和它们之间的区别都用手绘图解的方式梳理出来了,尽量做到一眼能看懂、适合收藏复习。
如果你也总是分不清 BERT 和 GPT,或者想从架构层面真正理解大模型,这一套图应该会对你有帮助~

收藏起来,后面学 LLM、微调、Agent、RAG 的时候一定还会反复用到。
也欢迎留言告诉我,你下一张最想看哪个模型的图解:ViT、MoE、LoRA,还是 Llama?📚

#Transformer #BERT #GPT #大模型 #人工智能 #深度学习 #NLP #机器学习 #学习笔记 #AI入门

ImageImageImage