呼叫搜索大师：Lucene 的数字范围搜索性能？

发布于 2024-09-28 06:32:19 字数 460 浏览 1 评论 0原文

我正在开发一个系统，该系统根据字符串、数字范围和日期范围对大量记录执行匹配。据我所知，字符串匹配大多是精确匹配，而不是我理解的 lucene 通常设计的不太精确的全文搜索类型结果。数字精度很重要，因为数据涉及价格。

我注意到 Lucene 最近添加了一些对数字范围搜索的支持，但这并不是它最初设计的目的。

目前系统使用过程式SQL进行匹配，系统的可扩展性已经达到极限。我正在研究水平扩展系统的方法，并且使用搜索引擎技术似乎是一种可能性，因为有些技术可以扩展到非常大的数据集，同时执行非常快的搜索结果。我想研究是否可以通过与 lucene 生成的元数据进行匹配来减轻数据库的大量负载，而无需访问数据库来获取完整记录，直到匹配规则确定应该检索什么。我希望最终的目标是获得接近实时的结果，尽管目前我们距离这一点还有很长的路要走。

我的问题如下：对于这种类型的索引和搜索，Lucene 的执行速度是否可能比 RDBMS 快很多倍，并且可以更便宜地扩展到更大的数据集？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我一向站在原地 2024-10-05 06:32:19

Lucene 将其数字内容存储为 trie； SQL 实现可能会将其存储为 b 树或 r 树。 Lucene 存储 trie 的方式和 SQL 使用 R 树的方式非常相似，如果您看到巨大的差异，我会感到惊讶（除非您利用了来自 Solr 的一些可扩展性）。
作为 Lucene 与 SQL 全文性能的一般问题，我发现的一项很好的研究是：Jing, Y., C.Zhang 和 X.Wang。 “Lucene 与关系数据库性能比较的实证研究。”通信软件和网络，2009 年。ICCSN'09。国际会议，336-340。 IEEE，2009。

首先，执行时
精确查询，Lucene的性能比
未索引的 RDB，而几乎与
索引-RDB。二、当通配符查询为前缀时
查询，那么索引RDB和Lucene都执行得很好
仍然通过利用索引...第三，对于组合查询，Lucene 执行
顺利，通常花费很少的时间，而查询时间
RDB的大小与组合搜索条件有关，
索引字段的数量。如果某些字段在
组合条件尚未编入索引，搜索将
花费更多的时间。四、Lucene的查询时间和
unindexed-RDB与记录复杂度有关系，
但索引 RDB 几乎独立于它。

简而言之，如果您正在进行“select * where x = y”这样的搜索，那么使用哪个并不重要。在 (x = y OR (x = z AND y = x)...) 中添加的子句越多，Lucene 就会变得越好。

他们并没有真正提到这一点，但 Lucene 的一个巨大优势是所有内置功能：词干提取、查询解析等。

回复收藏 0 原文

梦冥 2024-10-05 06:32:19

我建议您阅读 Marc Krellenstein 的“全文搜索引擎与 DBMS”。

开始使用 Lucene 的一个相对简单的方法是尝试 Solr 。您可以扩展 Lucene 和 Solr 使用复制和分片。

回复收藏 0 原文

这个俗人 2024-10-05 06:32:19

从本质上讲，Lucene 最简单的形式是一个单词密度搜索引擎。 Lucene 可以扩展以处理极大的数据集，并且在正确索引时以极快的速度返回结果。对于基于文本的搜索，Lucene 中的搜索结果返回速度可能比 SQL Server/Oracle/My SQL 更快。话虽这么说，将 Lucene 与传统 RDBMS 进行比较是不公平的，因为它们的用途完全不同。

回复收藏 0 原文

~没有更多了~