当前位置：文江博客话题详情

optimization search lucene.net

使用过多子句时 Lucene.Net 内存消耗和搜索速度变慢

发布于 2024-09-06 15:33:56 字数 345 浏览 4 评论 0原文

我有一个具有文本文件属性和文本文件主键 ID 的数据库，索引了大约 100 万个文本文件及其 ID（数据库中的主键）。

现在，我正在两个层面上寻找。首先是直接的数据库搜索，我得到主键作为结果（大约 2 或 300 万个 ID）

然后我进行布尔查询，例如如下

+Text:"test*" +(pkID:1 pkID:4 pkID:100 pkID:115 pkID:1041 .... )

并在我的索引文件中搜索它。

问题是这样的查询（有 200 万个子句）需要太多时间才能给出结果，并且消耗太多内存......

这个问题有任何优化解决方案吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

谁许谁一生繁华 2024-09-13 15:33:56

假设您可以重用查询的 dbid 部分：

将查询拆分为两部分：一部分（文本查询）将成为查询，另一部分（pkID 查询）将成为过滤器
将两部分都变成查询
转换 pkid查询过滤器（通过使用 QueryWrapperFilter）
将过滤器转换为缓存过滤器（使用 CachingWrapperFilter）
挂在过滤器上，也许通过某种字典
下次执行搜索时，使用允许您使用查询和过滤器的重载

只要pkid搜索可以被重用，你应该会有相当大的改进。只要您不优化索引，缓存的效果甚至应该通过提交点起作用（我知道位集是按每个段计算的）。

HTH

附注

我认为如果我不注意到我认为您这样使用它，就会使您的索引遭受各种滥用，那将是我的失职！

回复收藏 0 原文

眼泪淡了忧伤 2024-09-13 15:33:56

最好的优化是不要使用包含 200 万个子句的查询。任何具有 200 万个子句的 Lucene 查询无论如何优化都会运行缓慢。

在您的特定情况下，我认为首先使用 +Text:"test*" 查询搜索索引，然后通过对 Lucene 命中运行数据库查询来限制结果会更实用。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

初遇

文章 0 评论 0

听闻余生

文章 0 评论 0

Z_dy

文章 0 评论 0

左岸枫

文章 0 评论 0

1848719402

文章 0 评论 0

婷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文