source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69e391a3000000001d019647?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB9750ioB56_9qniwRx0xc7absOujPVbz4mxcVrWw7XeI=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910075&share_id=fb0500e346684a3f99169593c5f4e80c saved: 2026-05-04 23:54:59
id: 112a0fb8-7500-4f31-9329-97eb9068ff58
作者: 居丽叶
发布/编辑时间: 2026年04月18日 14:13
前段时间, Kimi 发布了一篇论文,名字叫 Attention Residuals,带来了一个非常反直觉却直击本质的创新:把注意力机制从序列维度,迁移到深度维度。
残差连接作为深度学习的基石,已经被我们沿用了近十年。从 ResNet 到 GPT 系列,几乎所有大模型都在依赖这套固定的线性累加范式。但随着模型越做越深,PreNorm 稀释、浅层信息被掩埋、梯度分布不均等问题越来越突出。
Kimi 团队用一个极简思路打破了这种路径依赖:既然序列维度的 RNN 能被 Transformer 的注意力彻底升级,那深度维度的残差连接,同样可以用注意力来重构。这一步旋转,让每层都能动态选择、加权聚合前序层信息,从盲加变成精准聚合。
论文还给出了工程友好的 Block AttnRes 方案,在几乎不增加推理开销的前提下,追回 Full AttnRes 的大部分收益,配套的跨阶段缓存、两阶段推理也让落地更可行。
今天我们就从底层逻辑出发,来看看这篇论文吧!
#算法工程师 #模型排名 #算法 #深度学习 #人工智能发展








评论
- 风: 如果我的数据集很小,只有1000多,甚至有的只有500,这种情况下,不适合大容量的模型,深度也不需要太深,我需要用什么方法进行序列建模比较合适
- 居丽叶: 可以用机器学习模型,或者用传统的让rnn lstm那些
- 我爱科研: 笔记是用的飞书吗
- 居丽叶: 是的