source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69ebaaf70000000035024fbf?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBxvf5Gl-RnilsDOlv8b0OPvahCvP7K17RNHiRNUwUEGU=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777909984&share_id=783f3889f3ad43629512085b9f75a211 saved: 2026-05-04 23:53:37

id: c5b18d54-3912-4710-8fc1-0948b878d306

作者: 我菜我也急啊

发布/编辑时间: 2026年04月24日 17:40

这一期开始进入 Transformer 的核心计算细节,主要包括 5 个部分:

1. Self-Attention
输入表示会先映射成 Q、K、V,再通过相关性计算得到注意力分数,经过 softmax 形成权重,最后对 V 做加权求和。它的核心作用,是让每个 token 都能动态聚合整段序列中的关键信息。

2. Multi-Head Attention
多头机制不是把序列切开分给head,而是让同一份输入经过不同参数投影,在多个子空间里并行建模不同关系。模型看到的信息模式更丰富,表达能力也更强。

3. 位置编码
因为 Self-Attention 本身只建模内容关系,不天然感知顺序,所以需要额外加入位置信息。位置编码的作用,本质上就是把“谁在前、谁在后、谁离谁更近”注入到 token 表示里。

4. 掩码自注意力
在 Decoder 中,当前位置不能看到未来 token,所以要加入 causal mask。这样模型每一步只能基于已经生成的内容继续往后预测,才能满足自回归生成的约束。

5. 残差连接与 LayerNorm
Transformer 里反复出现的 Add & Norm,不只是结构上的重复。残差连接负责保留原始信息、稳定梯度传播,LayerNorm 负责规范化表示分布,让深层网络更容易训练。

注意力负责信息交互,位置编码补足顺序信息,mask 保证生成约束,残差和归一化保证训练稳定。
如果把上篇和下篇连起来看,Transformer 的主干逻辑就比较完整了。

#大模型 #AI人工智能 #机器学习 #深度学习 #学习笔记

ImageImageImageImageImageImage