当前位置：文江博客话题详情

轻量级模糊搜索库

发布于 2024-07-04 21:19:04 字数 593 浏览 8 评论 0原文

你能推荐一些轻量级的模糊文本搜索库吗？

我想做的是让用户能够找到带有拼写错误的搜索词的正确数据。

我可以使用像 Lucene 这样的全文搜索引擎，但我认为这是一种矫枉过正的做法。

编辑：
为了使问题更清楚，这里是该库的主要场景：
我有一个很大的字符串列表。我希望能够在此列表中进行搜索（类似于 MSVS 的智能感知），但应该可以通过列表中不存在但与列表中的某些字符串足够接近的字符串来过滤此列表。
示例：

红绿
蓝
当我在文本框中键入“Gren ”

或“Geen”时，我希望在结果集中看到“Green”。

索引数据的主要语言是英语。

我认为 Lucene 对于这项任务来说太繁重了。

更新：

我找到了一款符合我要求的产品。这是ShuffleText。
你知道有什么替代方案吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

逆夏时光 2024-07-11 21:19:04

@aku - 工作 soundex 库的链接就在页面底部。

至于 Levenshtein 距离，维基百科文章也在底部列出了实现。

回复收藏 0 原文

黑凤梨 2024-07-11 21:19:04

sphinx 是一个强大、轻量级的解决方案。

它比 Lucene 小并且支持消歧。

它是用 C++ 编写的，速度快，经过实战测试，拥有适用于每个环境的库，并且被大公司使用，例如 craigslists.org

回复收藏 0 原文

不忘初心 2024-07-11 21:19:04

Lucene 具有很强的可扩展性，这意味着它也适用于小型应用程序。如果您需要的话，您可以非常快速地在内存中创建索引。

对于模糊搜索，您确实需要决定要使用哪种算法。在信息检索方面，我成功地将 n-gram 技术与 Lucene 结合使用。但这是一种特殊的索引技术，本身并不是一个“库”。

如果不了解更多关于您的应用程序的信息，推荐合适的库并不容易。您要搜索多少数据？数据是什么格式？数据多久更新一次？

回复收藏 0 原文

一城柳絮吹成雪 2024-07-11 21:19:04

Soundex 的编码非常“英国化”——Daitch-Mokotoff 对于许多名字来说效果更好，尤其是欧洲（日耳曼）和犹太名字。在我以英国为中心的世界中，这就是我所使用的。

维基此处。

回复收藏 0 原文

混吃等死 2024-07-11 21:19:04

我不确定 Lucene 是否适合模糊搜索，自定义库将是更好的选择。例如，此搜索是用 Java 完成的并且运行速度相当快，但它是为此类任务定制的：
http://www.softcorporation.com/products/people/

回复收藏 0 原文

小帐篷 2024-07-11 21:19:04

您没有指定您的开发平台，但如果它是 PHP，那么建议您查看 ZEND Lucene lubrary：

http://ifacethoughts.net/2008/02/07/zend-brings-lucene-to-php/
http://framework.zend.com/manual/en/zend。 search.lucene.html

由于 LAMP 比 Java 上的 Lucene 轻得多，并且可以轻松扩展为其他文件类型，只要您能找到转换库或命令行转换器 - 有很多 OSS 解决方案可供使用这。

回复收藏 0 原文

半枫 2024-07-11 21:19:04

尝试基于 Lucene API 的 Walnutil，集成到 SQL Server 和 Oracle DB。您可以创建任何类型的索引然后使用它。对于简单的搜索，您可以使用 walnutilsoft 的一些方法，对于更复杂的搜索情况，您可以使用 Lucene API。请参阅基于 Web 的示例，其中使用了从 Walnutil Tools 创建的索引。您还可以看到一些用 Java 和 C# 编写的代码示例，您可以使用它来创建不同类型的搜索。
该工具是免费的。
http://www.walnutilsoft.com/

回复收藏 0 原文