author: 🍒AI小樱桃 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/6a2236d20000000038037e6f?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBx2K7YUY42Envw9n4lZioxlKj-ee_2pPx-kBuyFcZz0k=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1780801301&share_id=603c98b915d240b08569b9ff27f52f12 saved: 2026-06-07 11:02:51 tags: - 笔记同步助手
id: 7e32f85d-b9b5-4ac6-8f7b-f016acc39c33
作者: 🍒AI小樱桃
发布/编辑时间: 2026年06月05日 02:39
这是面试官问完 QKV 和多头之后的第三关。答出"缓解梯度消失"及格,讲清梯度推导才加分。
1️⃣ 残差就一行代码 x+F(x),但它的数学本质是让梯度里永远有一个恒等"1"
2️⃣ 无残差时深层梯度指数衰减(w^N 连乘),有残差后每个加法口都保底,梯度畅通无阻
3️⃣ 手算证明:3层网络 有无残差 梯度差 27 倍
4️⃣ 加分追问 Pre-LN vs Post-LN:LLaMA 用的是 Pre-LN
最后一张图把 Attention + 残差 + LayerNorm 三者串起来,Transformer Block 从此通关
#transformer #残差连接 #深度学习面试 #AI算法面试 #大模型面试 #attention #深度学习 #llm #大模型 #大模型学习







内容效果不满意?点此反馈
积分余额不足,小红书图片文字识别(OCR)已跳过
⚠️ 充值仅限在 手机 中打开,电脑端无法支付

请用手机微信扫码完成充值