当前位置：文江博客话题详情

multithreading Java fileparsing

java中的文件处理

发布于 2024-09-15 09:02:40 字数 154 浏览 16 评论 0原文

我有一个2GB大小的文件，里面有学生记录。我需要根据每条记录中的某些属性查找学生，并创建一个包含结果的新文件。过滤后的学生的顺序应与原始文件中的顺序相同。什么是效率和效率？使用 Java IO API 和线程执行此操作而不出现内存问题的最快方法是什么？ JVM 的最大堆大小设置为 512MB。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

百善笑为先 2024-09-22 09:03:12

我认为你应该使用内存映射文件。这将帮助你将较大的文件映射到
较小的内存。这将像虚拟内存一样工作，就性能而言，映射文件比流写入/读取更快。

回复收藏 0 原文

旧时光的容颜 2024-09-22 09:03:09

2GB 对于一个文件来说是巨大的，你应该选择一个数据库。
如果您确实想使用Java I/O API，然后试试这个：使用 Java 高效处理大型数据文件以及：调整 Java I/O性能

回复收藏 0 原文

〗斷ホ乔殘χμё〖 2024-09-22 09:03:06

在您发现这种无聊的简单方法无法满足您的需要之前，我不会将其过于复杂化。本质上你只需要：

打开 2GB 文件的输入流，记住缓冲（例如通过使用 BufferedInputStream 包装）
打开输出流到你要创建的过滤文件
从输入流中读取第一条记录，查看任何属性来决定是否“需要”它；如果这样做，请将其写入输出文件中，
重复剩余记录

在我的一个具有极其普通硬件的测试系统上，开箱即用的 FileInputStream 周围的 BufferedInputStream 在 25 秒内读取大约 500 MB，即可能不到 2 分钟来处理您的 2GB 文件，并且默认缓冲区大小基本上是尽可能好的（请参阅 BufferedInputStream 计时我做了更多细节）。我想，如果使用最先进的硬件，时间很可能会减少一半。

您是否需要付出很大的努力来减少 2/3 分钟，或者只是在等待它运行时花一小会儿，您必须根据您的要求做出决定。我认为数据库选项不会给你带来太多好处，除非你需要对同一组数据进行大量不同的处理运行（并且还有其他解决方案，但并不自动意味着数据库）。

回复收藏 0 原文

独自唱情﹋歌 2024-09-22 09:02:59

什么样的文件？基于文本，例如 CSV？

最简单的方法是像 grep 那样：逐行读取文件，解析该行，检查过滤条件，如果匹配，则输出结果行，然后转到下一行，直到文件完成。这是非常有效的内存效率，因为您只同时加载当前行（或稍大一点的缓冲区）。您的进程只需读取整个文件一次。

我认为多线程不会有太大帮助。这会使事情变得更加复杂，并且由于无论如何该进程似乎都是 I/O 绑定的，因此尝试使用多个线程读取同一文件可能不会提高吞吐量。

如果您发现需要经常执行此操作，并且每次检查文件都太慢，则需要构建某种索引。最简单的方法是首先将文件导入数据库（可以是嵌入式数据库，如 SQLite 或 HSQL）。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文