author: 丁师兄大模型 source: 小红书 url: https://www.xiaohongshu.com/discovery/item/67fe01a8000000001c01ccbd?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBnfecxiUYQvK1AM1PlCurYTPEYvfIg894gxQWJKXUpAg=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1780998915&share_id=cd9cac5396254efd973ead908263350e saved: 2026-06-09 17:55:57 tags: - 笔记同步助手

id: 0f89184f-e0c8-4eb3-b245-2f07afccaca9

作者: 丁师兄大模型

发布/编辑时间: 2025年04月15日 06:50

#大模型面试 #大语言模型面试 #大模型学习 #大模型实习 #LLM #大模型面试题 #AI大模型 #ai大模型

ImageImageImageImageImageImageImageImageImage


评论

  • A: 这你都有错误[笑哭R],FA 显然影响精度[笑哭R]
    • B: flash attention计算是精确的,只是分块计算,不是近似计算,对结果准确性没有影响。你说的应该是哈佛那篇论文,那个是由于数值本身精度引起的,不是fa的原因。
    • C: 为什么
    • D: 不影响精度
  • A: 只要问一个问题就行了,fa 怎么判断是计算密集型还是访存密集型,怎么证明[笑哭R]
    • B: fa是计算型还是访存型,比较一下是计算耗时多还是通信多就行了,具体用nsight把执行的timeline打出来就看出来了[微笑R]
  • E: 请问怎么理解计算标准softmax三步需要6次通信,按道理取最大值的过程中,也可以同时计算分母吧
    • B: 原始的softmax不能这样做,因为分母的计算以来最大值m,也就是要等m算出来了以后再做一次累加
  • F: 求资料
  • G: 小白请问online softmax中,for循环并行化是因为可以乱序更新di吗,最后都是一样的[哭惹R]

内容效果不满意?点此反馈


积分余额不足,小红书图片文字识别(OCR)已跳过

📘 查看积分说明 · 💰 点击充值积分

⚠️ 充值仅限在 手机 中打开,电脑端无法支付

积分充值二维码

请用手机微信扫码完成充值