Hadoop 用于处理非常大的二进制文件

发布于 2024-10-20 22:42:23 字数 716 浏览 3 评论 0原文

我有一个希望分发的系统，其中有许多非常大的不可分割的二进制文件，我希望以分布式方式处理。这些大小约为数百 Gb。由于各种固定的、特定于实现的原因，这些文件无法并行处理，而必须由同一进程按顺序处理直至结束。

该应用程序是用 C++ 开发的，因此我会考虑使用 Hadoop 管道来流式传输数据。每个实例都需要顺序处理其自身数据（当前存储在一个文件中）的 100Gb 到 200Gb 量级，并且应用程序当前（可能）受到 IO 限制，因此每个作业完全在本地运行非常重要。

我非常热衷于使用 HDFS 来托管这些数据 - 自动维护冗余副本并在添加新节点时重新平衡的能力将非常有用。我还热衷于 MapReduce，因为它计算简单，并且要求托管计算尽可能靠近数据。然而，我想知道 Hadoop 对于这个特定的应用程序有多合适。

我知道，为了表示我的数据，可以生成不可分割的文件，或者生成巨大的序列文件（在我的例子中，单个文件的大小约为 10Tb - 我应该将所有数据打包到一）。因此可以使用 Hadoop 处理我的数据。然而，我的模型似乎不太适合 Hadoop：社区同意吗？或者有关于以最佳方式布置这些数据的建议吗？或者甚至对于其他可能更适合该模型的集群计算系统？

这个问题可能与 hadoop 上的现有问题重复，但例外的是我的系统需要每个单个文件一个数量级或两个以上的数据（之前我见过关于大小为几 GB 的单个文件的问题）。因此，如果之前已经回答过这个问题，请原谅我 - 即使对于这种大小的数据。

谢谢，

亚历克斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

装迷糊 2024-10-27 22:42:23

您似乎正在处理相对较少的大文件。由于文件很大且不可分割，Hadoop 将难以在集群中有效地调度和分配作业。我认为一批处理的文件越多（例如数百个），使用 Hadoop 的价值就越大。

由于您只处理几个文件，您是否尝试过更简单的分发机制，例如使用 ssh 或 GNU 并行？我使用这种方法来完成简单的任务并取得了很大的成功。在所有节点上使用 NFS 安装驱动器可以共享限制您必须执行的复制量。

回复收藏 0 原文

七月上 2024-10-27 22:42:23

您可以为您的文件编写一个自定义的InputSplit，但正如bajafresh4life所说，这并不是真正理想的，因为除非您的HDFS块大小与您的文件大小相同，否则您的文件将分散在各处，并且会产生网络开销。或者，如果您确实使 HDFS 大小与文件大小匹配，那么您将无法获得所有集群磁盘的优势。最重要的是，Hadoop 可能不是最适合您的工具。

回复收藏 0 原文

~没有更多了~