My Book

id: 112a0fb8-7500-4f31-9329-97eb9068ff58

作者: 居丽叶

发布/编辑时间: 2026年04月18日 14:13

前段时间， Kimi 发布了一篇论文，名字叫 Attention Residuals，带来了一个非常反直觉却直击本质的创新：把注意力机制从序列维度，迁移到深度维度。

残差连接作为深度学习的基石，已经被我们沿用了近十年。从 ResNet 到 GPT 系列，几乎所有大模型都在依赖这套固定的线性累加范式。但随着模型越做越深，PreNorm 稀释、浅层信息被掩埋、梯度分布不均等问题越来越突出。

Kimi 团队用一个极简思路打破了这种路径依赖：既然序列维度的 RNN 能被 Transformer 的注意力彻底升级，那深度维度的残差连接，同样可以用注意力来重构。这一步旋转，让每层都能动态选择、加权聚合前序层信息，从盲加变成精准聚合。

论文还给出了工程友好的 Block AttnRes 方案，在几乎不增加推理开销的前提下，追回 Full AttnRes 的大部分收益，配套的跨阶段缓存、两阶段推理也让落地更可行。

今天我们就从底层逻辑出发，来看看这篇论文吧！
#算法工程师 #模型排名 #算法 #深度学习 #人工智能发展

风: 如果我的数据集很小，只有1000多，甚至有的只有500，这种情况下，不适合大容量的模型，深度也不需要太深，我需要用什么方法进行序列建模比较合适
- 居丽叶: 可以用机器学习模型，或者用传统的让rnn lstm那些
我爱科研: 笔记是用的飞书吗
- 居丽叶: 是的