source: 小红书 url: https://www.xiaohongshu.com/discovery/item/66ed3dc8000000000c01854c?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB2ueXyPDUUcOVmki4VRSCTbAxfHqX7QKcNUM9BCqFg3s=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910140&share_id=18d6e29c537e4f8c99d5c24acda12a3f saved: 2026-05-04 23:56:01

id: f0f3bcf7-7f4c-4838-8954-0b5281fc24c5

作者: 吴老师讲AI人工智能

发布/编辑时间: 2024年09月20日 09:18

transformer的细节到底是怎么样的?(下篇)

[害羞R]今天,吴老师带你从细节上攻克Transformer整个算法,涵盖self-attention的矩阵化、self-attention的本质、attention的QKV思想等,希望能对你有所帮助。

[萌萌哒R]整个 transformer 的重点在 QKV 结构上,以前的 CNN 试图通过卷积来表达不同位置数值之间的关系,学习卷积值也就是学习矩阵里的数值之间的特征,所以适合用在图像里面。因为图像就是一个个的像素点形成的矩阵。

[点赞R]RNN 试图通过加入反馈机制来理解一串数值前后的关系,所以适用于语言模型,因为这些数值之间有前后关系,像我们的句子里有先后逻辑。

[赞R]而 transformer 里的 QKV 给你提供了一个新的思路:只研究问题和答案之间的关系。不去找前后,不去找相邻,就是单纯的问题(Query)和答案(Value),最多加了一个(Key)来辅助。

[偷笑R]那为什么要用 QKV 呢?因为这是谷歌搜索等搜索引擎最开始的结构。一个搜索引擎的设计其实就是给一个问题然后找到对应答案。任何一个问题(Query),会有很多的答案(Value),而之所以能找到这些答案,是因为这些答案里面包包含了有关于这个问题的关键信息(Key)。

[斜眼R]今天关于transformer的细节问题笔记里有详细介绍,内容较浅显易懂,小伙伴们一起学习吧![萌萌哒R]看完不会的话欢迎在评论区留言,我们一起讨论交流吧!
#AI科普 #Transformer #深度学习 #NLP #科技创新 #自注意力机制 #自然语言处理 #深度学习 #计算机视觉 #图像分割

ImageImageImageImageImageImageImageImage


评论

  • 哄哄: 已关注请分享
  • 天天开心!: 求
  • momo_w: 文档可以分享一下嘛?