My Book

id: c5b18d54-3912-4710-8fc1-0948b878d306

作者: 我菜我也急啊

发布/编辑时间: 2026年04月24日 17:40

这一期开始进入 Transformer 的核心计算细节，主要包括 5 个部分：

1. Self-Attention
输入表示会先映射成 Q、K、V，再通过相关性计算得到注意力分数，经过 softmax 形成权重，最后对 V 做加权求和。它的核心作用，是让每个 token 都能动态聚合整段序列中的关键信息。

2. Multi-Head Attention
多头机制不是把序列切开分给head，而是让同一份输入经过不同参数投影，在多个子空间里并行建模不同关系。模型看到的信息模式更丰富，表达能力也更强。

3. 位置编码
因为 Self-Attention 本身只建模内容关系，不天然感知顺序，所以需要额外加入位置信息。位置编码的作用，本质上就是把“谁在前、谁在后、谁离谁更近”注入到 token 表示里。

4. 掩码自注意力
在 Decoder 中，当前位置不能看到未来 token，所以要加入 causal mask。这样模型每一步只能基于已经生成的内容继续往后预测，才能满足自回归生成的约束。

5. 残差连接与 LayerNorm
Transformer 里反复出现的 Add & Norm，不只是结构上的重复。残差连接负责保留原始信息、稳定梯度传播，LayerNorm 负责规范化表示分布，让深层网络更容易训练。

注意力负责信息交互，位置编码补足顺序信息，mask 保证生成约束，残差和归一化保证训练稳定。
如果把上篇和下篇连起来看，Transformer 的主干逻辑就比较完整了。

#大模型 #AI人工智能 #机器学习 #深度学习 #学习笔记