My Book

author: 🍒AI小樱桃 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/6a2236d20000000038037e6f?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBx2K7YUY42Envw9n4lZioxlKj-ee_2pPx-kBuyFcZz0k=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1780801301&share_id=603c98b915d240b08569b9ff27f52f12 saved: 2026-06-07 11:02:51 tags: - 笔记同步助手

id: 7e32f85d-b9b5-4ac6-8f7b-f016acc39c33

作者: 🍒AI小樱桃

发布/编辑时间: 2026年06月05日 02:39

这是面试官问完 QKV 和多头之后的第三关。答出"缓解梯度消失"及格，讲清梯度推导才加分。

1️⃣ 残差就一行代码 x+F(x)，但它的数学本质是让梯度里永远有一个恒等"1"

2️⃣ 无残差时深层梯度指数衰减（w^N 连乘），有残差后每个加法口都保底，梯度畅通无阻

3️⃣ 手算证明：3层网络有无残差梯度差 27 倍

4️⃣ 加分追问 Pre-LN vs Post-LN：LLaMA 用的是 Pre-LN

最后一张图把 Attention + 残差 + LayerNorm 三者串起来，Transformer Block 从此通关

#transformer #残差连接 #深度学习面试 #AI算法面试 #大模型面试 #attention #深度学习 #llm #大模型 #大模型学习

内容效果不满意？点此反馈

_{积分余额不足，小红书图片文字识别（OCR）已跳过}

_{📘 查看积分说明 · 💰 点击充值积分}

_{⚠️ 充值仅限在手机中打开，电脑端无法支付}

积分充值二维码

_{请用手机微信扫码完成充值}