source: 小红书 url: https://www.xiaohongshu.com/discovery/item/69fa32f10000000035027e35?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB03K_pO1-1WPGGnyoV6_K3lqM_XkCAKGuw4qjHbYAcIg=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1778030445&share_id=fbd59c440eb54297abd3b74a7ed8db64 saved: 2026-05-06 09:21:11

id: cf3779e9-d1e8-4301-85a8-3ad590576acc

作者: 面试精华

发布/编辑时间: 2026年05月05日 18:12

临阵磨枪不快也光,大模型工程师面试前的救命稻草!

大模型工程师面试高频题整理

【大语言模型架构篇】
1. BERT为什么选择Transformer而不是RNN或CNN?
2. MLM任务中,被mask的token具体是怎么处理的?
3. 在实际项目中应用剪枝,有哪些坑需要注意?
4. Transformer模型中,注意力层的参数量是怎么算的?
5. 同样参数量下,深而窄的模型和浅而宽的模型,哪个更好?

【深度学习框架篇】
6. Megatron-LM是怎么做张量并行的?为什么要特殊处理Transformer?
7. 什么是Warmup?它和学习率调度是什么关系?
8. 钩子函数是什么?在大模型工程中有什么作用?
9. 在实际训练中,如何利用叶子节点机制来优化显存占用?
10. 如果遇到梯度消失或爆炸,从自动微分的角度怎么理解?有什么解决办法?

【模型推理优化篇】
11. 剪枝中的权重重要性是怎么评估的?
12. 如果让你在项目中应用非结构化剪枝,你会考虑哪些因素?
13. 知识蒸馏中的温度参数是什么?
14. Flash Attention 的分块计算是怎么保证数学等价的?
15. 逐层蒸馏和传统蒸馏有什么区别?

【Python编程篇】
16. 写代码实现:给定数组,原地将所有偶数位置元素乘以2。
17. 为什么逗号后面要加空格,括号内侧不加?
18. typing模块里的常用类型有哪些?
19. 说说你对synchronized和Lock的理解,它们有什么区别?
20. 如何用contextlib模块简化上下文管理器的编写?

资料见店铺主页,可按岗位搜索:大模型工程师

#大模型工程师 #面试题 #面经 #答案

ImageImageImageImageImageImageImageImageImageImage