Java：有关处理大数据量的建议。（双人部分）

发布于 2024-07-06 23:08:04 字数 632 浏览 9 评论 0原文

好吧。因此，我有大量的二进制数据（比方说 10GB）分布在一堆不同长度的文件（比方说 5000 个）上。

我正在编写一个Java应用程序来处理这些数据，我希望为数据访问制定一个良好的设计。通常会发生这样的情况：

无论怎样，所有数据都将在处理过程中被读取。
每个文件（通常）都是按顺序读取的，一次只需要几千字节。然而，通常需要同时拥有每个文件的前几千字节，或者同时拥有每个文件的中间几千字节等。
有时，应用程序需要随机访问到处都是一两个字节。

目前我正在使用 RandomAccessFile 类读入字节缓冲区（和 ByteBuffers）。我的最终目标是将数据访问封装到某个类中，这样它就可以很快，而且我再也不用担心它了。基本功能是我将要求它从指定文件中读取数据帧，并且考虑到上述考虑，我希望最大限度地减少 I/O 操作。

典型访问示例：

给我所有文件的前 10 KB！
给我文件 F 的字节 0 到 999，然后给我字节 1 到 1000，然后给我 2 到 1001，等等，等等...
从文件 F 的某个字节开始给我一兆字节的数据！

有什么好的设计建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夏日浅笑〃 2024-07-13 23:08:04

使用 Java NIO 和 MappedByteBuffers，并将文件视为字节数组列表。然后，让操作系统关心缓存、读取、刷新等细节。

回复收藏 0 原文

梦里兽 2024-07-13 23:08:04

@Will

效果很好。读取大型二进制文件快速比较：

测试 1 - 使用 RandomAccessFile 进行基本顺序读取。
2656 ms
测试 2 - 带缓冲的基本顺序读取。
47 ms
测试 3 - 使用 MappedByteBuffers 进行基本顺序读取以及进一步的帧缓冲优化。
16 ms

回复收藏 0 原文

堇年纸鸢 2024-07-13 23:08:04

哇。您基本上是从头开始实现数据库。是否有可能将数据导入到实际的 RDBMS 中并仅使用 SQL？

如果您自己这样做，您最终会想要实现某种缓存机制，因此您需要的数据来自 RAM（如果存在），并且您在较低层中读取和写入文件。

当然，这还需要大量复杂的事务逻辑，以确保您的数据保持一致。

回复收藏 0 原文

伊面 2024-07-13 23:08:04

我打算建议您跟进 Eric 的数据库想法并了解数据库如何管理其缓冲区——有效地实现自己的虚拟内存管理。

但当我进一步思考后，我得出的结论是，与没有 Java 低级访问的情况相比，大多数操作系统在实现文件系统缓存方面已经做得更好了。

不过，您可能会考虑数据库缓冲区管理的一个教训。数据库利用对查询计划的理解来优化管理策略。

在关系数据库中，通常最好从缓存中逐出最近使用的块。例如，在连接中保存子记录的“年轻”块将不会被再次查看，而包含其父记录的块仍在使用中，即使它是“较旧的”。

另一方面，操作系统文件缓存经过优化以重用最近使用的数据（并提前读取最近使用的数据）。如果您的应用程序不符合该模式，则可能值得您自己管理缓存。

回复收藏 0 原文

如果没有你 2024-07-13 23:08:04

您可能想看看一个名为 jdbm 的开源简单对象数据库 - 它有很多开发的这种东西，包括ACID能力。

我已经为该项目做出了许多贡献，如果没有其他办法来了解我们如何解决您可能正在解决的许多相同问题，那么值得回顾一下源代码。

现在，如果您的数据文件不在您的控制之下（即您正在解析其他人生成的文本文件等...），那么 jdbm 使用的页面结构存储类型可能不适合您 - 但如果所有这些文件是您正在创建和使用的文件，可能值得一看。

回复收藏 0 原文

静谧 2024-07-13 23:08:04

@Eric

但我的查询将比我用 SQL 做的任何事情都要简单得多。数据库访问不会比二进制数据读取昂贵得多吗？

回复收藏 0 原文

二智少女猫性小仙女 2024-07-13 23:08:04

这是为了回答有关最小化 I/O 流量的部分。在 Java 方面，您真正能做的就是将读者包装在 BufferedReaders 中。除此之外，您的操作系统还将处理其他优化，例如将最近读取的数据保留在页面缓存中以及对文件进行预读以加快顺序读取速度。在 Java 中进行额外的缓冲是没有意义的（尽管您仍然需要一个字节缓冲区来将数据返回给客户端）。

回复收藏 0 原文