嵌入向量(Embedding)
打个比方:你有一张巨大的世界地图。在这个地图上:
- "狗"和"小狗"的坐标紧挨着(意思相近)。
- "狗"和"哈士奇"的坐标比较近(相关但不同)。
- "狗"和"冰箱"的坐标隔着太平洋(毫不相关)。
Embedding 就是这张"语义地图"——把每个词、每句话、每段文字变成一个坐标点(一串数字),机器通过算坐标之间的距离,判断两个东西"意思有多接近"。
这有什么用
- 搜"怎么让数据库变快"能搜到标题为"查询性能优化技巧"的文档——两个标题没有一个词重叠,但在地图上的坐标非常近,因为意思是一样的。这比传统的"关键词匹配"聪明多了。
- RAG 的核心零件:前面说的"开卷考试"(RAG),之所以能在卡片柜里快速找到相关卡片,靠的就是 Embedding。
- 推荐引擎:你读了一篇关于 Python 的文章,系统在语义地图上找"离它最近的"其他文章推荐给你。
你要懂里面的数学吗
不用。就像你不用懂 GPS 卫星的三角定位算法也能用导航一样。你只需要知道:AI 搜索不是靠"关键词完全对上",而是靠"意思是否接近"——这个"接近"就是 Embedding 在背后算的。