使用 Hadoop 处理大量小文件

发布于 2024-11-05 15:54:22 字数 392 浏览 3 评论 0原文

我正在使用 Hadoop 示例程序 WordCount 来处理大量小文件/网页（约 2-3 kB）。由于这与 hadoop 文件的最佳文件大小相差甚远，因此程序非常慢。我想这是因为设置和撕毁工作的成本远远大于工作本身。此类小文件还会导致文件名的命名空间耗尽。

我读到在这种情况下我应该使用 HDFS 存档 (HAR)，但我不确定如何修改此程序 WordCount 以从此存档中读取。程序可以在不修改的情况下继续工作吗？或者需要进行一些修改？

即使我将大量文件打包到存档中，问题仍然是这是否会提高性能。我读到，即使我打包多个文件，一个存档中的这些文件也不会由一个映射器处理，而是由许多个映射器处理，在我的情况下（我猜）不会提高性能。

如果这个问题太简单，请理解我是 Hadoop 的新手，对它的经验很少。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北笙凉宸 2024-11-12 15:54:22

使用 HDFS 不会改变让 hadoop 处理大量小文件的情况。在这种情况下，最好的选择可能是将文件cat放入单个（或几个大）文件中。
这将减少您拥有的映射器的数量，从而减少需要处理的事物的数量。

如果您在分布式系统上运行，使用 HDFS 可以提高性能。如果您只进行伪分布式（一台机器），那么 HDFS 不会提高性能。限制是机器。

当您操作大量小文件时，将需要大量映射器和缩减器。 setup/down 的处理时间可以与文件本身的处理时间相媲美，从而导致很大的开销。整理文件应该会减少 hadoop 为作业运行的映射器数量，从而提高性能。

使用 HDFS 存储文件的好处是采用多台机器的分布式模式。文件将跨机器存储在块（默认 64MB）中，并且每台机器都能够处理驻留在该机器上的数据块。这减少了网络带宽的使用，因此不会成为处理的瓶颈。

归档文件，如果hadoop要取消归档它们只会导致hadoop仍然有大量小文件。

希望这有助于您的理解。

回复收藏 0 原文

别挽留 2024-11-12 15:54:22

从我对 Hadoop 的了解仍然有限，我相信正确的解决方案是创建包含 HTML 文件作为值以及可能包含 URL 作为键的 SequenceFile(s)。如果您对 SequenceFile 执行 M/R 作业，则每个映射器将处理许多文件（取决于拆分大小）。每个文件都将作为单个输入呈现给地图函数。
您可能需要使用 SequenceFileAsTextInputFormat 作为 InputFormat 来读取这些文件。

另请参阅：提供几个非文本文件将文件存储到 Hadoop MapReduce 中的单个映射

回复收藏 0 原文

浅黛梨妆こ 2024-11-12 15:54:22

我最近为这篇文章添加了书签以便稍后阅读，并在这里发现了同样的问题:)该条目有点旧，不确定它现在的相关性如何。 Hadoop 的变化正在以非常快的速度发生。

http://www.cloudera.com/blog/2009/ 02/the-small-files-problem/

该博客文章由 Tom White 撰写，他也是《Hadoop：权威指南，第二版》的作者，推荐 Hadoop 入门者阅读。

http://oreilly.com/catalog/0636920010388

回复收藏 0 原文

扶醉桌前 2024-11-12 15:54:22

您可以在将文件提交到 Hadoop 之前将它们连接起来吗？

回复收藏 0 原文

东北女汉子 2024-11-12 15:54:22

在这种情况下可以使用CombineFileInputFormat，它适用于大量小文件。这会将许多此类文件打包在一个 split 中，因此每个映射器有更多要处理的文件（1 个 split = 1 个映射任务）。
由于运行的映射器数量较少，mapreduce 的总体处理时间也将下降。
由于没有存档感知的输入格式，使用组合文件输入格式将提高性能。

回复收藏 0 原文

~没有更多了~