source: 小红书 url: https://www.xiaohongshu.com/discovery/item/6a1632bd00000000350323d8?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBuilL4_Fv_iclFJc8HRAjDuslP7Sv2OnVyPpJNw6clok=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1779846207&share_id=a5b857706fba4f7c807c6f58cbb4ec38 saved: 2026-05-27 09:43:54

id: eae90770-2d26-4317-9770-f22966fc5a52

作者: yoyo(学习版)

发布/编辑时间: 2026年05月26日 23:54

激活函数影响神经网络性能。早期多用ReLU,现主流采用其变体,如GELU、Swish等,解决梯度消失和神经元“死亡”问题。SwiGLU结合Swish和门控机制,成为现代LLM标准配置。
#大模型 #大模型应用 #大模型入门 #大模型学习 #大模型训练 #算法 #大模型面试 #深度学习 #人工智能 #学习

ImageImageImageImageImage


评论

  • A: 请问一般基于Transformer的有监督学习,比如微调,这些用什么激活函数呢

内容效果不满意?点此反馈