当前位置：文江博客话题详情

Lucene lucene.net

在 Lucene 中按日期范围过滤

发布于 2024-09-10 02:38:15 字数 283 浏览 4 评论 0原文

我知道标题可能表明它是重复的，但我无法找到此特定问题的答案：

我必须根据日期范围过滤搜索结果。每个文档的日期都存储在每个文档上（但不建立索引）。使用过滤器时，我注意到过滤器是通过索引中的所有文档调用的。

这意味着过滤器会随着索引的增长而变慢（目前只有约 300,000 个文档），因为它必须迭代每个文档。

我无法使用 RangeQuery，因为日期未建立索引。

如何仅在查询结果的文档上应用过滤器以提高效率？

我更喜欢在收到结果之前就这样做，以免弄乱我拥有的乐谱和收藏家。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

彡翼 2024-09-17 02:38:15

不太确定这是否有帮助，但我遇到了与您类似的问题，并提出了以下（+注释）：

我认为您确实必须对日期字段建立索引。在查询/过滤等方面没有其他任何意义。
在 Lucene.net v2.9 中，与 v2.9 相比，有大量术语的范围查询似乎变得非常慢，
我修复了使用日期字段时的速度问题切换到使用数字字段和数字字段查询。这实际上使我的速度比 Lucene.net v2.4 基线有了很大的提升。
将查询包装在缓存包装过滤器中意味着您可以保留为过滤器设置的文档位。这也将大大加快使用相同过滤器的后续查询的速度。
过滤器不会参与一组查询结果的评分
将缓存的过滤器连接到查询的其余部分（我猜您已经获得了自定义分数和收集器）意味着它应该满足您的查询的最后部分因此

，总结一下：将日期字段索引为数字字段；将您的查询构建为数字范围查询；将它们转换为缓存的过滤器包装器并挂在它们上。

我想您会发现当前索引使用情况有一些惊人的加速。

祝你好运！

附注
当使用 Lucene 时，我绝不会猜测什么会快或慢。我总是对两个方向感到惊讶！

回复收藏 0 原文

厌倦 2024-09-17 02:38:15

首先，要过滤字段，必须对其建立索引。

其次，使用过滤器被认为是限制要搜索的文档集的最佳方法。原因之一是您可以缓存过滤器结果以用于其他查询。过滤器数据结构非常高效：它是与过滤器匹配的文档的位集。

但如果你坚持不使用过滤器，我认为唯一的方法是使用布尔查询来进行过滤。

回复收藏 0 原文

~没有更多了~

关于作者

鲜肉鲜肉永远不皱

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

初遇

文章 0 评论 0

听闻余生

文章 0 评论 0

Z_dy

文章 0 评论 0

左岸枫

文章 0 评论 0

1848719402

文章 0 评论 0

婷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文