My Book

source: 小红书 url: https://www.xiaohongshu.com/discovery/item/66ed3dc8000000000c01854c?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB2ueXyPDUUcOVmki4VRSCTbAxfHqX7QKcNUM9BCqFg3s=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910140&share_id=18d6e29c537e4f8c99d5c24acda12a3f saved: 2026-05-04 23:56:01

id: f0f3bcf7-7f4c-4838-8954-0b5281fc24c5

作者: 吴老师讲AI人工智能

发布/编辑时间: 2024年09月20日 09:18

transformer的细节到底是怎么样的？（下篇）

[害羞R]今天，吴老师带你从细节上攻克Transformer整个算法，涵盖self-attention的矩阵化、self-attention的本质、attention的QKV思想等，希望能对你有所帮助。

[萌萌哒R]整个 transformer 的重点在 QKV 结构上，以前的 CNN 试图通过卷积来表达不同位置数值之间的关系，学习卷积值也就是学习矩阵里的数值之间的特征，所以适合用在图像里面。因为图像就是一个个的像素点形成的矩阵。

[点赞R]RNN 试图通过加入反馈机制来理解一串数值前后的关系，所以适用于语言模型，因为这些数值之间有前后关系，像我们的句子里有先后逻辑。

[赞R]而 transformer 里的 QKV 给你提供了一个新的思路：只研究问题和答案之间的关系。不去找前后，不去找相邻，就是单纯的问题（Query）和答案(Value)，最多加了一个(Key)来辅助。

[偷笑R]那为什么要用 QKV 呢？因为这是谷歌搜索等搜索引擎最开始的结构。一个搜索引擎的设计其实就是给一个问题然后找到对应答案。任何一个问题(Query)，会有很多的答案（Value），而之所以能找到这些答案，是因为这些答案里面包包含了有关于这个问题的关键信息（Key）。

[斜眼R]今天关于transformer的细节问题笔记里有详细介绍，内容较浅显易懂，小伙伴们一起学习吧！[萌萌哒R]看完不会的话欢迎在评论区留言，我们一起讨论交流吧！
#AI科普 #Transformer #深度学习 #NLP #科技创新 #自注意力机制 #自然语言处理 #深度学习 #计算机视觉 #图像分割

哄哄: 已关注请分享
天天开心！: 求
momo_w: 文档可以分享一下嘛？