当前位置：文江博客话题详情

在 Lucene 中，我可以搜索一个索引但使用另一个索引中的 IDF 吗？

发布于 2024-10-21 01:20:37 字数 336 浏览 12 评论 0原文

我正在构建一个系统，我只想显示过去几天索引的结果。此外，如果我只想返回几天的结果（数千个文档），我不想维护包含一百万个文档的巨型索引。

另一方面，我的系统严重依赖于存储在索引中的文档中术语的出现具有现实的分布（因此：现实的 IDF）。

也就是说，我想使用一个小索引来返回结果，但我想使用来自更大索引（甚至外部源）的 IDF 来计算文档分数。

相似性 API 似乎不允许我这样做。 idf 方法不接收所使用的术语作为参数。

另一种可能性是使用 TrieRangeQuery 来确保显示的文档是最近几天内的。再说一遍，我不想维护更大的索引。而且这种查询并不便宜。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

相对绾红妆 2024-10-28 01:20:37

您应该能够扩展 IndexReader 并重写 docFreq() 方法以提供您想要的任何值。该实现可以做的一件事是打开两个 IndexReader 实例——一个用于小索引，一个用于大索引。除了 docFreq() 委托给大索引之外，所有方法都委托给小 IndexReader。您需要缩放返回的值，即

int myNewDocFreq = bigIndexReader.docFreq(t) / bigIndexReader.maxDoc() * smallIndexReader.maxDoc()

You should be able to extend IndexReader and override the docFreq() methods to provide whatever values you'd like. One thing this implementation can do is open two IndexReader instances -- one for the small index and one for the large index. All the methods are delegated to the small IndexReader, except for docFreq(), which is delegated to the large index. You'll need to scale the value returned, i.e.

int myNewDocFreq = bigIndexReader.docFreq(t) / bigIndexReader.maxDoc() * smallIndexReader.maxDoc()

回复收藏 0 原文

~没有更多了~

关于作者

菊凝晚露

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

在 Lucene 中，我可以搜索一个索引但使用另一个索引中的 IDF 吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

在 Lucene 中，我可以搜索一个索引但使用另一个索引中的 IDF 吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。