当前位置：文江博客话题详情

Java 中的模糊字符串搜索，包括单词交换

发布于 2024-10-31 03:38:18 字数 221 浏览 8 评论 0原文

我是一名 Java 初学者，正在尝试编写一个程序，将输入与预定义字符串列表相匹配。我查看了 Levenshtein 距离，但遇到了这样的问题：

如果我有一个输入，例如“牛肉片”，我希望它与“牛肉片”匹配。问题是，根据编辑距离，“牛肉片”更接近“金枪鱼片”之类的东西，这当然是错误的。

我应该使用 Lucene 之类的东西吗？是否在 Java 类中使用 Lucene 方法？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

朦胧时间 2024-11-07 03:38:18

您需要计算搜索词与输入字符串的相关性。 Lucene 确实内置了相关性计算，这篇文章可能是一个很好的开始了解它们（我刚刚浏览了它，但看起来相当权威）。

基本过程是这样的：

初始化：标记您的搜索词，并将它们存储在一系列 HashSet 中，每个词一个。或者，如果您想为每个单词赋予不同的权重，请使用 HashMap，其中单词是键。
处理：标记每个输入字符串，并探测每个搜索词组以确定它们与输入的应用程度。请参阅上面的算法描述。

有一个简单的技巧可以处理拼写错误：在初始化期间，您创建包含搜索词的潜在拼写错误的集合。 Peter Norvig 的文章“如何编写拼写校正器”描述了这个过程（它使用 Python 代码，但 Java 实现当然是可能的）。

回复收藏 0 原文

哥，最终变帅啦 2024-11-07 03:38:18

Lucene确实支持基于Levenshtein距离的模糊搜索。

https://lucene.apache.org/java/2_4_0/queryparsersyntax.html #Fuzzy%20Searches

但 lucene 的目的是搜索文档集而不是字符串搜索，因此 lucene 对您来说可能有点大材小用了。还有其他可用的 Java 实现。看看 http://www.merriampark.com/ldjava.htm

回复收藏 0 原文

所有深爱都是秘密 2024-11-07 03:38:18

应该可以将编辑距离应用于单词，而不是字符。然后，为了匹配单词，您可以再次在字符级别应用 Levenshtein，以便“filet of Beef”中的“filet”应与“beef fillet”中的“fillet”匹配。

回复收藏 0 原文

~没有更多了~

关于作者

ゞ花落谁相伴

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

Java 中的模糊字符串搜索，包括单词交换

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

Java 中的模糊字符串搜索，包括单词交换

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。