当前位置：文江博客话题详情

关于Hadoop/HDFS文件分割

发布于 2025-01-05 19:14:31 字数 475 浏览 1 评论 0原文

只是想确认一下。请验证这是否正确： 1.根据我的理解，当我们将文件复制到HDFS时，即文件（假设其大小> 64MB = HDFS块大小）被分割成多个块，并且每个块存储在不同的数据节点上。

当文件复制到 HDFS 时，文件内容已经被分割成块，并且在运行映射作业时不会发生文件分割。 Map 任务仅以在 max 的每个块上工作的方式进行调度。大小 64 MB，具有数据局部性（即映射任务在包含数据/块的节点上运行）
如果文件被压缩（gzipped），也会发生文件分割，但 MR 确保每个文件仅由一个映射器处理，即MR 将收集位于其他数据节点的所有 gzip 文件块，并将它们全部提供给单个映射器。
如果我们定义 isSplitable() 返回 false，就会发生与上面相同的情况，即文件的所有块将由运行在一台机器上的一个映射器处理。 MR 将从不同的数据节点读取文件的所有块，并使它们可供单个映射器使用。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦中楼上月下 2025-01-12 19:14:31

大卫的回答几乎一语中的，我只是在这里详细阐述一下。

这里有两个不同的概念在起作用，每个概念都由 hadoop 框架中的不同实体处理。

首先 --

1) 将文件划分为块 -- 当文件写入 HDFS 时，HDFS 划分将文件分成块并负责其复制。此操作（大部分）执行一次，然后可供集群上运行的所有 MR 作业使用。这是集群范围的配置

其次 --

2) 将文件分割为输入分割 -- 当输入路径传递到 MR 作业时，MR 作业使用该路径以及配置为分割的输入格式将输入路径中指定的文件分成多个 split，每个 split 由一个 map 任务处理。输入分割的计算是通过每次执行作业时的输入格式来完成的

现在一旦我们掌握了这一点，我们就可以理解 isSplitable() 方法属于第二类。

要真正确定这一点，请查看 HDFS 写入数据流（概念 1）

HDFS 写入数据流

第二点该图可能是发生拆分的地方，请注意，这与 MR 作业的运行无关

现在看一下 MR 作业的执行步骤

这里第一步是通过为作业配置的输入格式计算输入分割。

您的很多困惑源于您同时使用这两个概念这一事实，我希望这能让您更清楚一些。

回复收藏 0 原文

谁人与我共长歌 2025-01-12 19:14:31

你的理解并不理想。
我想指出的是，有两个几乎独立的过程：将文件拆分为 HDFS 块，以及拆分文件以供不同映射器处理。
HDFS 根据定义的块大小将文件分割成块。

每种输入格式都有自己的逻辑，如何将文件分割成多个部分，以便不同的映射器独立处理。 FileInputFormat的默认逻辑是按HDFS块分割文件。您可以实现任何其他逻辑

压缩通常是分割的敌人，因此我们采用块压缩技术来实现压缩数据的分割。这意味着文件（块）的每个逻辑部分都是独立压缩的。

回复收藏 0 原文

囍笑 2025-01-12 19:14:31

是的，当文件复制到 HDFS 时，文件内容会被分割成块。块大小是可配置的，如果说 128 MB，那么整个 128 MB 将是一个块，而不是单独的 2 个 64 MB 块。而且文件的每个块都没有必要存储在单独的数据节点上。数据节点可能具有多个特定文件的块。并且基于复制因子，特定块可能存在于多个数据节点中。

回复收藏 0 原文

~没有更多了~