source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69d1c33c00000000220278cf?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CByXR4QCnS_lhns3Rx3ElnT9dtVhyr_S6kULttBtox5xU=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777736120&share_id=b6b0d014f1a24f2485fe4bd435034e53 saved: 2026-05-02 23:35:50

id: be8a417b-0902-4f82-9fd0-1c20bef7eb08

作者: 新世界生活指北

发布/编辑时间: 2026年04月05日 02:04

MoE(Mixture of Experts 混合专家)
是把一个大型任务拆解给多个“专家”模型处理,但每次只激活最相关的少数几位,从而用更少的计算量达到接近大模型的性能。

💡 打个比方
以前的传统大模型像一位“全科医生”,啥病都看,知识面宽但效率低。
MoE模型就像一个“三甲医院”🏥:
- 你头疼 → 自动分诊到神经内科专家
- 你牙疼 → 分诊到口腔科
只有相关专家被激活,其他专家可以休息。

⚙️ 技术层面
在Transformer里,MoE把原来的FFN层替换成多个“专家FFN”。
每次推理只激活Top-K个专家(比如1~2个),其它参数虽然是“存在”的,但不用计算。
→ 参数量大 × 计算量小 的神奇组合!

传统Dense模型:所有参数对每个token都计算,越大越慢
MoE模型:同样总参数量,每次只算一小部分专家,速度快得多

落地模型:
✅ Mixtral 8×7B
✅ DeepSeek MoE
✅ Gemma4 26B MoE

⚠️ 缺点也不是没有
- 训练时容易“专家挑食”(某些专家一直激活,别的摸鱼)
- 推理时要把模型塞进显存,虽然计算少,但参数量大,显存要求高
- 调度策略设计不好,反而会降效果

📌 总结一句话
MoE = 用“稀疏激活”的方式,在有限算力下塞进更多参数,让大模型又大又快又聪明。

感叹:未来大家的本地AI会用更快更好用,真是AI一日,人间一年。
#ai #人工智能发展 #moe #大模型 #机器学习 #LLM

ImageImageImageImageImageImage


评论

  • 玄隆子: 请教下,MoE模型跟稠密模型,在写提示词的时候,有没什么区别对待的地方呢?因为实际用起来,感觉MoE模型出来结果的统一性明显不如稠密模型
    • 新世界生活指北: MoE输出一致性不如稠密模型稳定是结构决定的,我用的不多,但逻辑上看,提示词要更有约束性。