source: 小红书 url: https://www.xiaohongshu.com/discovery/item/6a0031d50000000008026218?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBAcYC5bLrlI3qS4HXZeg3tpEPwCbxMzGHCFd5aUlyCmM=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778399824&share_id=e5d9b805ecd6490195a032bbd492fd6f saved: 2026-05-10 15:57:54
id: 954c9ebc-a680-4bfc-ae3f-a9425224a5da
作者: 不知名博士Niu
发布/编辑时间: 2026年05月10日 07:20
面试官问“为什么现在大语言模型多是 decoder-only”时,别只说 GPT 就是这样设计的。直觉上,它像一个边看聊天记录边往下接话的人:前面说过什么都能看见,但不能偷看未来,所以训练时学的动作和上线生成时的动作是一致的。
第一,自回归生成天然适配。Decoder-only 用 causal mask,每个 token 只能看 x第二,预训练目标简单统一。next-token prediction 直接最大化 P(xt|x第三,工程扩展性更好。Decoder-only 结构单一路径,训练、推理、KV cache、流式输出都比较直接。模型可以边生成边返回,用户也能中途看到答案;如果是复杂 cross-attention 架构,系统链路和缓存管理会更重。
我会这样答:不是 decoder-only 在所有任务上都最强,而是通用 LLM 追求“统一生成接口 + 可扩展训练 + 低延迟交互”,它刚好把这三件事对齐了。
欢迎关注点赞收藏,每天更新更多大厂面试笔记

评论
- A: Transformer架构的...
内容效果不满意?点此反馈