My Book

source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69098425000000000301eee5?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBCBLFzloTV8Vy-o0AB4oLSuiedwm2-x5UxQAtNWNPpQA=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910040&share_id=391ead6bd9e94db38a2769282939d076 saved: 2026-05-04 23:54:21

id: 0ea584ed-ed50-4434-8381-7a8b97a75e00

作者: RessMatthew

发布/编辑时间: 2025年11月07日 06:38

给第一次接触 Transformer 的你👇
不背术语、不绕弯，直接用好懂的比喻讲清“注意力”在干嘛、编码器和解码器怎么配合。
看完你能把“长句也能一眼看穿”的秘密说给朋友听，并顺手写出第一个小 demo。
从 0 到会用，只需这篇。🧠✨
#AI入门 #Transformer #注意力机制 #大模型科普 #GPT #Bert #Attention

出门: 好清晰啊[捂脸R]为什么现在才看到
- RessMatthew: 好饭不怕晚[doge]
- 羊张: 写得真好[心心眼R]
- RessMatthew: hh，感谢支持[派对R]
中孩: 最好的transformer讲解笔记，终于懂了[失望R]
- RessMatthew: 谢谢友友的支持
DoDo: 写的很好，补充一点，可以先介绍一下“相关性”是如何定义的，在这里使用点积计算两个（词）向量的相似性。从几何上看，一个向量代表着数据点在每个维度上的坐标，两个向量的点积就是它们相应位置坐标相乘，在忽略数值范围波动的情况下，两个数乘积越正（同正/同负）说明它们在这一维度上越“相同”，因此可以用点积结果来表征向量（矩阵）的相似度/相关性[棒R]
- RessMatthew: 感谢提供的宝贵意见[赞R]，确实没怎么解释余弦相似度
想见你: 有个疑问，在经过掩码多头注意力机制后，解码器已经生成了翻译的中文句子，还需要经过编码器-解码器注意力，这样做是为了对上一步生成的中文翻译进行优化吗？
- RessMatthew: 我的理解是：“掩码注意力”并不会生成句子，只是让解码器搞清楚自己已经写了什么（比如“那只”）。“编码器-解码器注意力”让解码器去参考英文原文（比如“cat”）。解码器同时知道这两个信息后，再决定下一个要生成的词（“猫”）。
时代少年团我们喜欢你: 阿尔卑斯山不在日本啊
- RessMatthew: 友友可以Google下，除了欧洲，日本也有被称作“阿尔卑斯山”的山寨版[doge]

id: 0ea584ed-ed50-4434-8381-7a8b97a75e00

评论