My Book

author: 橙序开发图解 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fc62eb000000003502280f?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB5zwz-cSjxFagxvfnztbEKQI6lgdig_wW05uC3uYanLw=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778372506&share_id=23cc79d7a7244ccd9cc117fa8cfb0dd4 saved: 2026-05-10 08:22:37 tags: - 笔记同步助手

id: bb48c5bb-3dac-4d64-9b91-847da264f86a

作者: 橙序开发图解

发布/编辑时间: 2026年05月08日 02:18

敲代码、调模型，绕不开的核心指标就是困惑度（Perplexity, PPL）。
到底怎么看模型是真懂还是瞎猜？👇
1️⃣ 简单点：困惑度就是“选择困难症”
模型预测下一个词时，就像在做多选题。
PPL = 1：学霸附体，百分百确定答案。
PPL = 10：模型在 10 个选项里反复横跳，拿不准。
数值越低，模型对语言规律的掌控力越强。毕竟，不困惑的 AI 才是好 AI！
2️⃣ 硬核点：它和 Loss 是亲兄弟
为什么训练时看 Loss，评估时看 PPL？
Loss：在对数空间搞优化，梯度下降更顺手。
PPL：回归概率空间，数值更符合人类直觉。
降 Loss，本质就是在治好 AI 的脑雾。
3️⃣ 清醒点：低 PPL 不等于“高质量”
这是很多人的误区！
低 PPL 只说明模型预测得准，但不代表讲得好。
模型可能会讲一堆逻辑满分、但毫无营养的“正确废话”。
避坑指南：不同任务（如翻译 vs 闲聊）的 PPL 没有可比性，跨任务对比纯属耍流氓。
💡 PPL 是大模型的体检表，反映了建模能力，但不能代表全部。想
#大模型 #大模型开发 #大模型面试 #AI人工智能 #困惑度 #AI大模型 #大模型面试 #人工智能#困惑度曲线

内容效果不满意？点此反馈