当前位置：文江博客话题详情

在java中扫描非常大的文件的最快方法是什么？

发布于 2024-10-15 20:26:58 字数 143 浏览 6 评论 0原文

想象一下我有一个非常大的文本文件。性能确实很重要。

我想做的就是扫描它以查找某个字符串。也许我想数一下我有多少个，但这确实不是重点。

关键是：最快的方法是什么？

我不关心维护，它需要很快。

快速是关键。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一身软味 2024-10-22 20:26:58

对于一次性搜索，请使用扫描仪，按照此处的建议

一个简单的技术很可能是
比indexOf()快得多
使用扫描仪，方法如下
findWithinHorizon()。如果您使用
接受 File 对象的构造函数，
扫描仪将在内部制作一个
FileChannel 读取文件。而对于
模式匹配最终将使用
高效的 Boyer-Moore 算法
字符串搜索。

回复收藏 0 原文

旧人哭 2024-10-22 20:26:58

首先，使用 nio (FileChannel) 而不是 java.io 类。其次，使用高效的字符串搜索算法，例如 Boyer-Moore。

如果您需要多次搜索同一文件以查找不同的字符串，您将需要构建某种索引，因此请查看 Lucene。

回复收藏 0 原文

日久见人心 2024-10-22 20:26:58

将整个文件加载到内存中，然后查看使用字符串搜索算法，例如 Knuth Morris Pratt。

编辑：
快速谷歌显示这个字符串搜索库似乎已经实现了一些不同的字符串搜索算法。请注意，我从未使用过它，因此无法保证它。

回复收藏 0 原文

梦冥 2024-10-22 20:26:58

无论具体情况如何，内存映射 IO 通常就是答案。

编辑：根据您的要求，您可以尝试将文件导入 SQL 数据库，然后通过 JDBC 利用性能改进。

Edit2：JavaRanch的这个线程还有其他一些想法，涉及FileChannel。我认为这可能正是您正在寻找的内容。

回复收藏 0 原文

万水千山粽是情ミ 2024-10-22 20:26:58

我想说最快的方法是在 FileInputStreams 之上使用 BufferedInputStreams...或者如果您想避免 BufferedInputStream 实例化，则使用自定义缓冲区。

这会比我更好地解释它： http://java.sun.com/developer/技术文章/编程/PerfTuning/

回复收藏 0 原文

酷遇一生 2024-10-22 20:26:58

使用正确的工具：全文搜索库

我的建议是执行内存中索引（或启用缓存的基于文件的索引），然后对其执行搜索。正如@Michael Borgwardt 所建议的，Lucene 是最好的库。

回复收藏 0 原文

娇纵 2024-10-22 20:26:58

我不知道这是否是一个愚蠢的建议，但是 grep 不是一个非常有效的文件搜索工具吗？也许您可以使用 Runtime.getRuntime().exec(..) 来调用它

回复收藏 0 原文

城歌 2024-10-22 20:26:58

这取决于您是否需要对每个文件执行多次搜索。如果您只需要进行一项搜索，请从磁盘读取文件并使用 Michael Bogwart 建议的工具对其进行解析。如果您需要进行多次搜索，您可能应该使用 Lucene：读入文件，对其进行标记，将标记粘贴到索引中。如果索引足够小，请将其放在 RAM 中（Lucene 提供 RAM 或磁盘支持索引的选项）。如果没有将其保留在磁盘上。如果它对于 RAM 来说太大，并且您非常非常关心速度，请将索引存储在固态/闪存驱动器上。

回复收藏 0 原文

~没有更多了~