当前位置：文江博客话题详情

Java中大型数据集基于文件的合并排序

发布于 2024-11-14 17:47:20 字数 70 浏览 3 评论 0原文

给定的大数据集不适合内存，是否有任何库或 API 可以在 Java 中执行排序？该实现可能类似于 Linux 实用程序排序。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

多彩岁月 2024-11-21 17:47:20

Java 提供了一个通用排序例程，可以将其用作更大的问题解决方案的一部分。对太大而无法装入内存的数据进行排序的常见方法是：

1) 读取主内存中能够容纳的尽可能多的数据，假设它是 1 Gb

2) 对 1 Gb 进行快速排序（这里是您使用 Java 内置的方法） -从集合框架排序）

3) 将排序后的 1 Gb 作为“chunk-1”写入磁盘

4) 重复步骤 1-3，直到遍历完所有数据，保存每个数据块在一个单独的文件中。因此，如果您的原始数据为 9 GB，您现在将拥有 9 个已排序的数据块，标记为“chunk-1”至“chunk-9”

5) 您现在只需要最终的合并排序即可将 9 个已排序的数据块合并为一个完整的数据块排序的数据集。合并排序将非常有效地处理这些预排序的块。它本质上会打开 9 个文件读取器（每个块一个），加上一个文件写入器（用于输出）。然后，它比较每个读取文件中的第一个数据元素并选择最小值，并将其写入输出文件。发出所选值的读取器前进到下一个数据元素，并重复 9 路比较过程以找到最小值，再次将答案写入输出文件。重复此过程，直到从所有块文件中读取所有数据。

6) 一旦步骤 5 完成读取所有数据，您的输出文件现在包含一个完全排序的数据集

通过这种方法，您可以轻松编写自己的通用“megasort”实用程序，该实用程序采用文件名和 maxMemory 参数，并且使用临时文件有效地对文件进行排序。我敢打赌，您至少可以找到一些实现，但如果没有，您也可以按照上面的描述推出自己的实现。

回复收藏 0 原文