profileName: youpingfang postId: 393 postType: post categories:

- 6

结合你正在阅读的教程中关于 3.1.3 Decoder-Only 架构 的内容,这个问题直接触及了现代大语言模型(LLM)最核心的工程选择。

从 2017 年 Transformer 诞生时的 Encoder-Decoder,到如今 DeepSeek、GPT-4、Llama 等全面统治市场的 Decoder-Only,这一架构演变不仅是结构上的精简,更是大模型核心哲学的一次重大跃迁。


一、 结构对决:Decoder-Only vs Encoder-Decoder

1. 完整的 Encoder-Decoder 架构(以 2017 年标准 Transformer、T5 为代表)

  • 核心哲学:“先全盘理解,再逐步生成”。

  • 结构组成

    • Encoder(编码器):采用双向自注意力(Bidirectional Attention)。它能同时看到输入句子的“前文”和“后文”。比如处理“我爱吃苹果”,算“爱”字时,它能同时看到“我”和“吃苹果”,从而生成一个全局的、深刻的上下文理解向量。

    • Decoder(解码器):采用掩码自注意力(Masked Attention)交叉注意力(Cross Attention)。它在生成文本时,一方面通过掩码确保自己不能“偷看未来”,另一方面要通过交叉注意力不断去“向编码器请教”输入的含义。

  • 主要战场:非常适合输入与输出不对等的翻译、摘要、问答等文本到文本(Text-to-Text)任务。

2. Decoder-Only 架构(以 GPT 系列、DeepSeek、Llama 为代表)

  • 核心哲学:“世界不过是一场文字接龙”。

  • 结构组成它完全砍掉了 Encoder,只保留了解码器。整个网络从头到尾只有一种注意力机制——掩码自注意力(Masked Self-Attention)

  • 工作模式(自回归):输入和输出不分家,全部拼成一个长序列。无论是你提的问题(Prompt)还是模型给的回答(Response),在它眼里都是一团文本。它唯一的任务,就是根据已经看过的左侧所有词,去预测下一个最有可能出现的词


二、 为什么现在主流的大模型都采用 Decoder-Only?

在早期,学术界普遍认为 Encoder-Decoder 架构因为有专门的“理解模块(Encoder)”,在很多任务上理应比单解码器更强。但随着参数量跨越百亿级,Decoder-Only 展现出了压倒性的工程与学术优势:

1. 训练目标极度统一,完美契合“海量无监督数据”

  • Encoder-Decoder 的训练通常需要“输入-输出”成对的数据(如:原文 $\rightarrow$ 译文)。这种高质量的对齐数据在互联网上是有限的。

  • Decoder-Only 的目标极度纯粹:预测下一个词(Next-Token Prediction)。这种任务不需要任何人工标注。互联网上浩如烟海的网页、图书、代码,只要是一段通顺的话,就能直接喂给模型做训练。这种对无监督数据的极致利用率,促成了大模型在预训练阶段的规模化爆发。

2. 规模化扩展(Scaling)时的惊人性价比

根据大模型的 3.3.1 缩放法则(Scaling Laws),模型的参数量越大,能力越强。

  • 在相同的显存和计算资源(FLOPs)预算下,Decoder-Only 的结构极为简单(只有一堆重复的解码器层叠),这使得它在超大规模并行训练时的显存利用率和工程优化效率极高

  • 相比之下,Encoder-Decoder 复杂的交叉注意力机制在数千亿参数规模时,会带来巨大的工程通信开销。

3. “能力的涌现”打破了纯理解的壁垒

早年间人们担心 Decoder-Only 因为只能“从左看到右”,理解能力会不如双向的 Encoder。然而研究发现:当 Decoder-Only 的模型参数量大到一定程度(通常超过百亿)时,会产生“能力涌现(Emergent Abilities)”。它不仅能轻松做生成,其上下文学习(In-context Learning)和逻辑推理能力甚至远超当年的纯 Encoder 模型。它通过“文字接龙”这一简单的形式,顺便学会了逻辑、常识和推理。

4. KV Cache 的推理优势

在实际部署和落地(Inference)时,Decoder-Only 架构由于是严格的自回归模型,可以使用 KV Cache(键值缓存) 技术。每次生成新词时,前面已经计算过的历史词的 $K$ 和 $V$ 矩阵可以被完美缓存和复用,不需要重复计算。这使得大模型在面对超长上下文(如 128K 甚至更长)时,依然能保持高效的吞吐和极低的延迟。


💡 总结

Encoder-Decoder 是一位严谨的“翻译官”,必须先听完、听懂,再翻字典去输出;而 Decoder-Only 则是一个绝顶聪明的“接话天才”,它把世间万物都简化成了“根据前文接下一句”。凭借着对海量数据的无吞噬能力、极简的架构和工程上的巨大优势,这位“接话天才”最终在Scaling Law的加持下,成为了现代 AGI 时代的唯一基座。