My Book

source: 小红书 url: https://www.xiaohongshu.com/discovery/item/6a0031d50000000008026218?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBAcYC5bLrlI3qS4HXZeg3tpEPwCbxMzGHCFd5aUlyCmM=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778399824&share_id=e5d9b805ecd6490195a032bbd492fd6f saved: 2026-05-10 15:57:54

id: 954c9ebc-a680-4bfc-ae3f-a9425224a5da

作者: 不知名博士Niu

发布/编辑时间: 2026年05月10日 07:20

面试官问“为什么现在大语言模型多是 decoder-only”时，别只说 GPT 就是这样设计的。直觉上，它像一个边看聊天记录边往下接话的人：前面说过什么都能看见，但不能偷看未来，所以训练时学的动作和上线生成时的动作是一致的。
第一，自回归生成天然适配。Decoder-only 用 causal mask，每个 token 只能看 x第二，预训练目标简单统一。next-token prediction 直接最大化 P(xt|x第三，工程扩展性更好。Decoder-only 结构单一路径，训练、推理、KV cache、流式输出都比较直接。模型可以边生成边返回，用户也能中途看到答案；如果是复杂 cross-attention 架构，系统链路和缓存管理会更重。
我会这样答：不是 decoder-only 在所有任务上都最强，而是通用 LLM 追求“统一生成接口 + 可扩展训练 + 低延迟交互”，它刚好把这三件事对齐了。
欢迎关注点赞收藏，每天更新更多大厂面试笔记

A: Transformer架构的...

内容效果不满意？点此反馈

id: 954c9ebc-a680-4bfc-ae3f-a9425224a5da

评论