source: 小红书 url: https://www.xiaohongshu.com/discovery/item/684bf875000000000f0393c3?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB8oyvoEoKm89TgIcVJiHh4F9C7550Ry_VGGbcdcKzOHQ=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777909602&share_id=1e030e8f3b404c1ea5e3e320e6980385 saved: 2026-05-04 23:47:07
id: b06782f9-4283-4c00-bf93-c6da41cde6d0
发布/编辑时间: 2025年06月13日 10:07
在Transformer模型中,对注意力机制进行缩放可以解决在高维空间中计算点积时出现的数值稳定性问题。具体来说,这种缩放涉及在应用softmax函数之前,将点积除以键向量维度的平方根,√dₖ。
[向右R] 为何需要缩放 (数值稳定性)
[一R] 在使用点积注意力计算两个高维向量之间的相似性时,点积的大小往往会随着维度的增加而增长。这是因为每个维度的贡献会累积起来,在高维空间中,即使是微小的变化也可能导致结果发生巨大变化。
[二R] 可以将点积的方差缩放为常数数量级,防止输入softmax之前的值过大。
[三R] 假设向量元素是独立同分布的,那么每个元素的方差都会对点积的总方差做出贡献,而这个总方差会随着维度d的增加而增加。 若每个元素均值为0,方差为1,则点积期望为0,方差为dₖ
[向右R] 未缩放点积的后果
[一R] 如果不进行缩放(即不除以dₖ),点积的值可能会变得过大,导致softmax输出的分布极为极端。
[二R] 这会形成一种“硬”注意力分布,其中少数权重接近1,而其他权重几乎为0,使得注意力集中在特定的标记上。softmax(z) 在 z 很大时,会趋向于 one-hot 分布,容易引发训练不稳定。
[三R] 在反向传播过程中,这种稀疏性会使梯度集中在某些方向上。通过链式法则和多层传播,这种不平衡可能会被放大,尤其是在高维或深层模型中,可能会导致梯度消失或爆炸。
[向右R] 缩放的好处
通过dₖ进行缩放可以将点积的标准差趋近于1,从而确保softmax输出更加平衡。这种更平滑的注意力分布可以减轻极端梯度集中的问题,稳定训练过程,并显著降低在大规模Transformer模型中梯度消失或爆炸的风险。
[火R]持续更新!提供大模型原创、深度解析[火R]
#算法 #大厂 #大模型 #面试 #大模型面试 #互联网大厂 #互联网大厂面试 #attention #注意力机制


