source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69098425000000000301eee5?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBCBLFzloTV8Vy-o0AB4oLSuiedwm2-x5UxQAtNWNPpQA=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777910040&share_id=391ead6bd9e94db38a2769282939d076 saved: 2026-05-04 23:54:21

id: 0ea584ed-ed50-4434-8381-7a8b97a75e00

作者: RessMatthew

发布/编辑时间: 2025年11月07日 06:38

给第一次接触 Transformer 的你👇
不背术语、不绕弯,直接用好懂的比喻讲清“注意力”在干嘛、编码器和解码器怎么配合。
看完你能把“长句也能一眼看穿”的秘密说给朋友听,并顺手写出第一个小 demo。
从 0 到会用,只需这篇。🧠✨
#AI入门 #Transformer #注意力机制 #大模型科普 #GPT #Bert #Attention

ImageImageImageImageImageImageImageImage


评论

  • 出门: 好清晰啊[捂脸R]为什么现在才看到
    • RessMatthew: 好饭不怕晚[doge]
    • 羊张: 写得真好[心心眼R]
    • RessMatthew: hh,感谢支持[派对R]
  • 中孩: 最好的transformer讲解笔记,终于懂了[失望R]
    • RessMatthew: 谢谢友友的支持
  • DoDo: 写的很好,补充一点,可以先介绍一下“相关性”是如何定义的,在这里使用点积计算两个(词)向量的相似性。从几何上看,一个向量代表着数据点在每个维度上的坐标,两个向量的点积就是它们相应位置坐标相乘,在忽略数值范围波动的情况下,两个数乘积越正(同正/同负)说明它们在这一维度上越“相同”,因此可以用点积结果来表征向量(矩阵)的相似度/相关性[棒R]
    • RessMatthew: 感谢提供的宝贵意见[赞R],确实没怎么解释余弦相似度
  • 想见你: 有个疑问,在经过掩码多头注意力机制后,解码器已经生成了翻译的中文句子,还需要经过编码器-解码器注意力,这样做是为了对上一步生成的中文翻译进行优化吗?
    • RessMatthew: 我的理解是:“掩码注意力”并不会生成句子,只是让解码器搞清楚自己已经写了什么(比如“那 只”)。“编码器-解码器注意力”让解码器去参考英文原文(比如“cat”)。解码器同时知道这两个信息后,再决定下一个要生成的词(“猫”)。
  • 时代少年团我们喜欢你: 阿尔卑斯山不在日本啊
    • RessMatthew: 友友可以Google下,除了欧洲,日本也有被称作“阿尔卑斯山”的山寨版[doge]