My Book

id: be8a417b-0902-4f82-9fd0-1c20bef7eb08

作者: 新世界生活指北

发布/编辑时间: 2026年04月05日 02:04

MoE（Mixture of Experts 混合专家）
是把一个大型任务拆解给多个“专家”模型处理，但每次只激活最相关的少数几位，从而用更少的计算量达到接近大模型的性能。

💡 打个比方
以前的传统大模型像一位“全科医生”，啥病都看，知识面宽但效率低。
MoE模型就像一个“三甲医院”🏥：
- 你头疼 → 自动分诊到神经内科专家
- 你牙疼 → 分诊到口腔科
只有相关专家被激活，其他专家可以休息。

⚙️ 技术层面
在Transformer里，MoE把原来的FFN层替换成多个“专家FFN”。
每次推理只激活Top-K个专家（比如1～2个），其它参数虽然是“存在”的，但不用计算。
→ 参数量大 × 计算量小的神奇组合！

传统Dense模型：所有参数对每个token都计算，越大越慢
MoE模型：同样总参数量，每次只算一小部分专家，速度快得多

落地模型：
✅ Mixtral 8×7B
✅ DeepSeek MoE
✅ Gemma4 26B MoE

⚠️ 缺点也不是没有
- 训练时容易“专家挑食”（某些专家一直激活，别的摸鱼）
- 推理时要把模型塞进显存，虽然计算少，但参数量大，显存要求高
- 调度策略设计不好，反而会降效果

📌 总结一句话
MoE = 用“稀疏激活”的方式，在有限算力下塞进更多参数，让大模型又大又快又聪明。

感叹：未来大家的本地AI会用更快更好用，真是AI一日，人间一年。
#ai #人工智能发展 #moe #大模型 #机器学习 #LLM

玄隆子: 请教下，MoE模型跟稠密模型，在写提示词的时候，有没什么区别对待的地方呢？因为实际用起来，感觉MoE模型出来结果的统一性明显不如稠密模型
- 新世界生活指北: MoE输出一致性不如稠密模型稳定是结构决定的，我用的不多，但逻辑上看，提示词要更有约束性。