当前位置：文江博客话题详情

Java 中使用哪个 API 来读取文件才能获得最佳性能？

发布于 2024-08-12 07:16:37 字数 637 浏览 15 评论 0原文

在我工作的地方，过去每个文件的行数超过一百万行。尽管服务器内存超过 10GB，其中 JVM 内存为 8GB，但有时服务器会挂起片刻并阻塞其他任务。

我分析了代码，发现文件读取时内存使用量频繁增加千兆字节（1GB 到 3GB），然后突然恢复正常。看来这种频繁的高内存和低内存使用挂起了我的服务器。当然，这是由于垃圾收集造成的。

我应该使用哪个 API 来读取文件以获得更好的性能？

现在我正在使用 BufferedReader(new FileReader(...)) 来读取这些 CSV 文件。

流程：我如何读取文件？

我逐行读取文件。
每行都有几列。根据我相应地解析它们的类型（双精度数中的成本列、int 中的访问列、字符串中的关键字列等）。
我将符合条件的内容（访问> 0）推送到 HashMap 中，并最终在任务结束时清除该映射

更新

我读取 30 或 31 个文件（一个月的数据）并存储符合地图条件。后来这张地图被用来在不同的表中找到一些罪魁祸首。因此读取是必须的，存储数据也是必须的。虽然我现在已经将 HashMap 部分切换到 BerkeleyDB，但是读取文件时的问题是相同的甚至更糟。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

恍梦境° 2024-08-19 07:16:37

BufferedReader 是用于此目的的两个最佳 API 之一。如果您确实在文件读取方面遇到困难，另一种方法可能是使用 NIO 对文件进行内存映射，然后直接从内存中读取内容。

但你的问题不在于读者。您的问题是，每次读取操作都会创建一堆新对象，很可能是您在读取后立即执行的操作。

您应该考虑清理输入处理，着眼于减少创建的对象的数量和/或大小，或者在不再需要时更快地删除对象。是否可以一次处理一行或一大块文件，而不是将整个文件吸入内存进行处理？

另一种可能性是摆弄垃圾收集。您有两种机制：

每隔一段时间显式调用垃圾收集器，例如每 10 秒或每 1000 个输入行或其他。这将增加 GC 完成的工作量，但每次 GC 花费的时间会更少，您的内存不会膨胀太多，因此希望对服务器其余部分的影响较小。
摆弄 JVM 的垃圾收集器选项。这些在 JVM 之间有所不同，但是 java -X 应该会给您一些提示。

更新：最有前途的方法：

您真的需要一次性将整个数据集放入内存中进行处理吗？

回复收藏 0 原文

梦旅人picnic 2024-08-19 07:16:37

我分析了代码并发现
而文件读取内存使用量则增加
经常使用千兆字节（1GB 到 3GB）并且
然后突然恢复正常。它
看来这频繁的高低
内存使用使我的服务器挂起。的
当然这是由于垃圾造成的
收藏。

使用 BufferedReader(new FileReader(...)) 不会导致这种情况。

我怀疑问题是您正在将行/行读入数组或列表，处理它们，然后丢弃数组/列表。这将导致内存使用量增加然后再次减少。如果是这种情况，您可以通过在读取时处理每一行来减少内存使用量。

编辑：我们一致认为问题在于内存中用于表示文件内容的空间。巨大的内存哈希表的替代方法是回到我们在以千字节为单位测量计算机内存时使用的旧“排序合并”方法。（我假设处理过程主要由使用键 K 进行查找以获取关联行 R 的步骤主导。）

如果有必要，请预处理每个输入文件，以便可以对它们进行排序键 K。
使用高效的文件排序实用程序将所有输入文件按 K 上的顺序排序。想要使用一个使用经典合并排序算法的实用程序。这将
将每个文件分割成可以在内存中排序的较小块，对块进行排序，将它们写入临时文件，然后合并排序后的临时文件。 UNIX / Linux sort 实用程序是一个不错的选择。
并行读取排序后的文件，从所有文件中读取与每个键值相关的所有行，处理它们，然后继续处理下一个键值。
并行读取排序后的文件

事实上，我有点惊讶使用 BerkeleyDB 没有帮助。但是，如果分析告诉您大部分时间都用于构建数据库，则您可以在构建数据库之前通过将输入文件（如上所述！）按升序键顺序进行排序来加快速度。（创建基于文件的大型索引时，如果按键顺序添加条目，您将获得更好的性能。）

回复收藏 0 原文

月下伊人醉 2024-08-19 07:16:37

尝试使用以下 vm 选项来调整 gc（并执行一些 gc 打印）：

-verbose:gc -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -XX:+PrintGCDetails -XX:+PrintGCTimeStamps

Try using the following vm options in order to tune the gc (and do some gc printing):

-verbose:gc -XX:+UseConcMarkSweepGC -XX:+CMSIncrementalMode -XX:+PrintGCDetails -XX:+PrintGCTimeStamps

回复收藏 0 原文

~没有更多了~

关于作者

回忆追雨的时光

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

Java 中使用哪个 API 来读取文件才能获得最佳性能？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

Java 中使用哪个 API 来读取文件才能获得最佳性能？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。