当前位置：文江博客话题详情

潜在语义索引

发布于 2024-08-12 03:26:48 字数 126 浏览 3 评论 0原文

据说，通过LSI，产生的矩阵U、A和V将具有同义词的文档汇集在一起。例如，如果我们搜索“汽车”，我们也会得到包含“汽车”的文档。但LSI只不过是矩阵的操作。它只考虑频率，不考虑语义。那么我所缺少的这个魔法背后的东西是什么？请解释一下。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

盛夏尉蓝 2024-08-19 03:26:48

LSI 基本上创建每个文档的频率配置文件，并查找具有相似频率配置文件的文档。如果频率分布的其余部分足够相似，它将把两个文档分类为非常相似，即使一个文档系统地替换了一些单词。相反，如果频率配置文件不同，它可以/将把文档分类为不同的，即使它们经常使用一些特定术语（例如，在某些情况下与计算机相关的“文件”，以及用于在其他情况下切割和光滑金属）。

LSI 通常还用于相对较大的文档组。其他文档也可以帮助发现相似之处——即使文档 A 和 B 看起来有很大不同，如果文档 C 使用了 A 和 B 中的相当多的术语，它可以帮助发现 A 和 B 确实相当相似。

回复收藏 0 原文