source: 小红书 url: https://www.xiaohongshu.com/discovery/item/680e5d9b000000000b016244?app_platform=ios&app_version=9.25&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBNvbb_cdjxqVPywsqSG9_jigB-Nr4S8xr7MDZdh7oOS4=&author_share=1&xhsshare=WeixinSession&shareRedId=ODY7Nzs8ND02NzUyOTgwNjY0OTc5Sz85&apptime=1777732542&share_id=22adcd1dfc4c4be482f852a2cdd1c2ca saved: 2026-05-02 22:36:09
id: 39377a1a-6b28-4802-904b-b021af2692a0
作者: 小葱AI
发布/编辑时间: 2025年04月27日 16:38
👉 什么是“Embedding”?
Embedding(嵌入)是指把文本(也可能包括图像、视频等其他模态数据)转成能表达语义信息的浮点数向量,向量之间的数学距离可以反映对应文本之间的语义相关性。
👉 从文本到“Embedding”的流程
Embedding的生成方式,主要分两种情况:
[一R] [种草R] 大模型推理中的Embedding(Token级)
✅ 文本先通过分词器拆分成最小语言单位token,例如:"unbelievable" → ["un", "believ", "able"]。
✅ 接着查询词表,将每个token被映射成一个数字编号,比如:"un" → 1087。
✅ 根据编号查询Embedding矩阵,快速取出对应的浮点数向量,例如:"un" → [0.24, -0.31, 0.88, ..., 0.05]。
[二R] [种草R] 独立使用的Embedding(句子u002F文档级)
✅ 如果需要表示一整句或一段文本(比如在RAG中检索),就不能只查表了。常见做法是:将文本输入到一个专门训练好的Embedding模型(如 Sentence-BERT、M3E),通过推理生成一个完整的句子或文档级向量。这种Embedding包含了更丰富的上下文信息,适合检索、相似性判断等场景。
👉 “Embedding”的本质:语义可“被数字表示”
在模型训练中,发现文本的语义可以被“压缩”成一组数字向量,且向量之间的距离和方向,能自然反映文本间的语义关系。比如:
✅ “猫”和“狗”对应向量的数学距离很近,代表它们语义接近(都是动物)
✅ “房子”和“你好”对应向量的数学距离很远,表示它们语义无关
✅ 模型甚至可以学到:king - man + woman ≈ queen 这样的语义数学关系
这些规律并非人为设定,而是模型通过海量数据自动学习到的。
👉 应用场景
Embedding不仅用于大模型推理时将输入文本编码为语义向量,也能用于:
✅ 检索增强生成(RAG):将文档或知识内容转化为向量存储,推理时通过向量检索相关片段,扩展模型上下文,提升回答准确性。
✅ 相似性判断:比较文本向量的距离或角度,判断语义一致性或检测重复内容。
✅ 文本聚类与分析:将文本编码为向量后进行聚类,挖掘内容结构和主题分布,如K-means聚类。
#RAG #AI #互联网大厂 #大模型 #人工智能 #模型推理 #人工智能 #智能体 #机器学习 #大模型面试




评论
- 都给我叫陛下: 可以总结为,把离散的文本转换成连续性向量吗
- 小葱AI: 对的,理解完全正确[点赞R],Embedding的核心就是让计算机能更好地处理文本,通过把离散的文字(比如单词或句子)转换成连续的数值向量,而且转换后还能保持词语之间的语义关联。
- 想躺平: 这么一说就瞬间有概念了
- Cupcake: 同一个字在不同的embedding模型中,会表示为相同的向量还是不同的向量呢?
- 小葱AI: 肯定是不同的亲,因为embedding本质也是训练出来的,不同的embedding模型结构、参数都不一样,因此同一个字不同embedding模型处理后得到的向量不仅值不一样,可能连向量长度(维度)也不一样。
- Cupcake: 学习了,感谢解答!
- 小葱AI: 😊
- momo: 请问 如果计算相似度的话 一般就是余弦相似度吗
- 小葱AI: 对的,个人理解为什么embedding相似度常用余弦相似度,是因为模型训练过程中常通过归一化处理把向量长度压缩到1,也就是说消除了向量长度的影响,而主要关心向量的方向,余弦相似度正好符合这个特点,像欧式距离会受到向量长度的影响。
- momo: 好的好的 谢谢
- 小葱AI: [飞吻R]
- starring: 每个字都是中文,但是连起来一句都看不懂[黄金薯R]走错了,这个好像不是入门的科普
- 小葱AI: 谢谢宝子反馈,后面笔记我会尽量在专业知识点旁配上更白话的解释,让萌新也能看懂[飞吻R]
- 爱吃馒头的福迪: 小白能看懂个123 谢谢作者!
- 小葱AI: 谢谢亲反馈,下一篇笔记我配上更多白话的解释😊