当前位置：文江博客话题详情

algorithm Java string-matching string-search matching

Java中的字符串搜索算法

发布于 2024-09-10 09:40:52 字数 570 浏览 4 评论 0 原文

我正在进行大量数据的字符串匹配。

编辑：我将一个大列表中包含的单词与一些本体文本文件进行匹配。我从本体中获取每个文件，并搜索每个文件行的第三个字符串与列表中的任何单词之间的匹配项。

我在监督这样一个事实时犯了一个错误：我需要做的不是纯粹的匹配（结果很差），但我需要一些更宽松的匹配函数，当该字符串包含在另一个字符串中时，它也会返回结果。

我用 Radix 做到了这一点特里；它非常快并且工作得很好，但现在我想我的工作毫无用处，因为特里树只返回完全匹配的结果。 :/

执行此操作的算法类型是字符串搜索算法？
有人可以建议一些他有经验的 Java 实现吗？

该算法应该是快速的，但不是最优先考虑的，会损害速度和性能。复杂。

我非常感谢所有建议/示例/解释/链接！

谢谢你！

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

深陷 2024-09-17 09:40:52

您可能会发现后缀树很有用（它们在概念上与尝试类似）。

每个字符串都以 ^ 开头并以 $ 结尾，并创建所有附加字符串的后缀树。空间使用量将为 O(n)，并且可能比 trie 的空间使用率更差。

如果你现在需要搜索字符串 s，你可以在 O(|s|) 时间内轻松完成，就像 trie 一样，你得到的匹配将是子字符串匹配（基本上，你将匹配某个字符串的某些后缀））。

~~抱歉，我没有方便的 Java 实现参考。~~

找到了一个有用的 stackoverflow 答案：通用后缀树 Java 实现

其中具有：
http://illya-keeplearning.blogspot。 com/2009/04/suffix-trees-java-ukkonens-algorithm.html

依次具有：源代码：http://illya.yolasite.com/resources/suffix-tree.zip

回复收藏 0 原文

冰火雁神 2024-09-17 09:40:52

您可以使用 BM 算法在文本文件中搜索单一模式，并对列表中的所有模式重复此算法。

另一个最佳解决方案是使用多模式搜索算法，例如： Aho–Corasick string匹配算法

回复收藏 0 原文

暮年慕年 2024-09-17 09:40:52

正则表达式绝对是您最好的选择。它们写起来可能有点混乱，但它们是您可以进行更宽松的匹配而无需使用一系列难以理解的 if/else 或 switch 语句的唯一方法。

另外，它们会比替代方案快得多。

回复收藏 0 原文

烦人精 2024-09-17 09:40:52

我不完全确定我是否正确理解了这个问题，但听起来正则表达式可以完成这项工作

http://java.sun.com/developer/technicalArticles/releases/1.4regex/

回复收藏 0 原文

拍不死你 2024-09-17 09:40:52

为什么不使用java中的indexOf方法呢？根据内存的可用性，读取内容。执行一个indexOf并获取您需要的所有行。加载下一组内容。

如果从文件读取，请使用 nio 流。

也许这个想法很糟糕，但我相信java。它将使用最好的算法。

如果使用正则表达式会更好。

回复收藏 0 原文

~没有更多了~

关于作者

我很OK

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

更多

推荐作者

关注

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文