Hibernate 搜索中的模糊索引

发布于 2024-11-27 18:36:01 字数 171 浏览 3 评论 0原文

我完全理解模糊搜索，但在我的应用程序中，它们非常慢，有很多术语（约 500 毫秒）。我遇到了一种缓慢模糊搜索的解决方案，其中建议不要进行模糊搜索，而是使用 levenstein 算法对术语进行索引，以便常规关键字搜索会产生模糊结果。

有没有办法用 Hibernate Search 来做到这一点，最好是使用注释？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

菊凝晚露 2024-12-04 18:36:01

我不太确定你想在这里做什么。您是否希望在索引期间将具有给定 Levenstein 距离的单词插入到索引中？类似于同义词搜索，您将同义词标记插入索引中？如果是这样，您可以编写令牌过滤器（和过滤器工厂），然后使用 @AnalyzerDef 框架来构建自定义分析器。查看源代码以了解这是如何完成的。
请注意，我发现这种方法有几个问题。索引变得昂贵并且索引大小将变得非常大。当然，我对你的用例了解不多。

回复收藏 0 原文

绅士风度i 2024-12-04 18:36:01

我会按顺序尝试以下选项：

您只是想纠正用户查询中的拼写错误吗？也许您应该为此预先使用拼写检查器/自动建议，而不是使用较慢且难以调整相关性的模糊查询。
这不是真正的全文搜索，而是某种类型的“匹配”过程吗？在这种情况下，另一种方法可以是索引字符 n 元语法，例如使用 lucene 的 ngram TokenFilters，这样您就可以在字段上执行布尔查询，而不是缓慢的模糊查询。这实际上就是 lucene 的拼写检查器在幕后工作的方式！
如果上述情况不适用，并且您确实决定需要模糊搜索，并且没有其他选择，您可以尝试使用 lucene 主干的夜间构建。这使用了完全不同的算法，因此这些查询速度更快[1]。但是，我认为您无法轻松地将未发布的 lucene trunk 与 hibernate 集成。
[1]: http:// blog.mikemccandless.com/2011/03/lucenes-fuzzyquery-is-100-times-faster.html 关于模糊改进的博客。