在 Solr 中实现术语关联挖掘的最简单方法是什么？

发布于 2024-12-04 00:26:00 字数 767 浏览 0 评论 0原文

关联挖掘似乎对于在文本语料库中检索相关术语给出了良好的结果。关于这个主题有很多著作，包括著名的 LSA 方法。挖掘关联的最直接方法是构建文档 X 术语的共现矩阵并查找同一文档中最常出现的术语。在我之前的项目中，我通过 TermDocs 迭代直接在 Lucene 中实现它（我通过调用 IndexReader.termDocs(Term))。但我在 Solr 中看不到类似的东西。

因此，我的需求是：

检索特定字段内最相关的术语。
要检索特定字段中最接近指定术语的术语。

我将按照以下方式对答案进行评分：

理想情况下，我希望找到能够直接满足特定需求的 Solr 组件，即直接获取关联术语的组件。
如果这是不可能的，我正在寻找获取指定字段的共现矩阵信息的方法。
如果这也不是一个选项，我想知道最直接的方法 1) 获取所有术语 2) 获取这些术语出现的文档的 ID（数字）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

中二柚 2024-12-11 00:26:00

您可以将 Lucene（或 Solr）索引导出到 Mahout，然后使用潜在狄利克雷分配。如果 LDA 与 LSA 不够接近，无法满足您的需求，您可以从 Mahout 中获取相关矩阵，然后使用 Mahout 进行奇异值分解。

我不知道 Solr 有任何 LSA 组件。

回复收藏 0 原文

雨的味道风的声音 2024-12-11 00:26:00

由于我的问题仍然没有答案，我必须写下自己的想法并接受它。尽管如此，如果有人提出更好的解决方案，我会很乐意接受它而不是我的。

我将选择共现矩阵，因为它是关联挖掘的最重要部分。一般来说，Solr 提供了以某种方式构建此矩阵所需的所有函数，尽管它们不如直接使用 Lucene 访问那么高效。为了构建矩阵，我们需要：

所有术语或至少最常见的术语，因为稀有术语本质上不会影响关联挖掘的结果。
出现这些术语的文档，至少是顶级文档。

使用标准 Solr 组件可以轻松完成这两项任务。

检索术语 TermsComponent 或分面搜索。我们只能获取顶级术语（默认情况下）或所有术语（通过设置要采用的最大术语数，有关详细信息，请参阅特定功能的文档）。

获取包含相关术语的文档只需搜索该术语即可。这里的弱点是我们每个术语需要 1 个请求，并且可能有数千个术语。另一个弱点是简单搜索和分面搜索都不提供有关找到的文档中当前术语出现次数的信息。

有了这个，构建共现矩阵就很容易了。要挖掘关联，可以使用其他软件，例如 Weka 或编写自己的实现比如说，Apriori 算法。

回复收藏 0 原文

记忆之渊 2024-12-11 00:26:00

您可以在以下查询中获取找到的文档中当前术语的出现次数：

http://ip:port/solr/someinstance/select?defType=func&fl=termfreq(field,xxx),*&fq={!frange l=1}termfreq(field,xxx)&indent=on&q=termfreq(field,xxx)&sort=termfreq(field,xxx) desc&wt=json

You can get the count of occurrences of the current term in found document in the following query:

http://ip:port/solr/someinstance/select?defType=func&fl=termfreq(field,xxx),*&fq={!frange l=1}termfreq(field,xxx)&indent=on&q=termfreq(field,xxx)&sort=termfreq(field,xxx) desc&wt=json

回复收藏 0 原文

~没有更多了~