当前位置：文江博客话题详情

小文件和 HDFS 块

发布于 2024-12-22 01:31:06 字数 46 浏览 2 评论 0原文

Hadoop分布式文件系统中的一个块存储多个小文件，还是一个块只存储1个文件？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

陈年往事 2024-12-29 01:31:06

多个文件不存储在单个块中。顺便说一句，单个文件可以存储在多个块中。文件和块 ID 之间的映射保存在 NameNode 中。

根据Hadoop：权威指南

与单个磁盘的文件系统不同，HDFS 中小于单个块的文件不会占用整个块的底层存储。

HDFS 旨在处理大文件。如果有太多小文件，则可能会加载 NameNode，因为它存储 HDFS 的名称空间。查看这篇文章了解如何缓解问题小文件太多。

回复收藏 0 原文

樱桃奶球 2024-12-29 01:31:06

Hadoop 块大小是 Hadoop 存储概念。每次在 Hadoop 中存储文件时，它都会分为块大小，并根据复制因子和数据局部性将其分布在集群上。

详细信息：

当您将文件推送到 HDFS 上时，它将被分为块。每个块就像一个单独的文件，具有由块大小描述的最大大小。
每个块都会包含一个.meta文件，用于存储该块在Hadoop上的元数据信息。
如果文件非常小，那么整个文件将在一个块中，并且该块（存储文件）将与文件和元文件具有相同的大小。

一些命令：

连接到集群上的任何数据节点[如果您有访问权限；)]。然后转到该节点的存储目录，您可以看到数据节点上存储的实际块，如下所示。

（目录按照我的集群 - /data2/dfs/dn/）：

块大小：1 GB

cd /data/dfs/dn ->当前->最终确定->子目录0 -> （这里是黄金）

块仅使用小文件的 KB 存储空间，或者当文件大小是我的块大小 + 一些 KB 时可能会这样

-rw-r--r- - 1 hdfs hdfs 91K 九月 13 16:19 blk_1073781504

-rw-r--r-- 1 hdfs hdfs 19K 九月13 16:21 blk_1073781504_40923.meta

当文件大于块大小时，块将如下所示

-rw-r--r-- 1 hdfs hdfs 1.0G Aug 31 12:03 blk_1073753814

-rw-r--r-- 1 hdfs hdfs 8.1M Aug 31 12:04 blk_1073753814_12994.meta

我希望它能解释块存储的内容。如果您想了解文件如何存储在块中的详细信息，请运行

hdfs fsck -blocks -locations

如果我在这里遗漏了任何内容，请告诉我。

回复收藏 0 原文

尬尬 2024-12-29 01:31:06

您可以使用 HAR（Hadoop Archive）文件系统来做到这一点，它尝试将多个小文件打包到由 HAR 文件系统管理的特殊部分文件的 HDFS 块中。

回复收藏 0 原文

故人的歌 2024-12-29 01:31:06

一个块将存储一个文件。如果您的文件大于 BlockSize(64/128/..)，那么它将被分区为具有各自 BlockSize 的多个块。

回复收藏 0 原文

羁客 2024-12-29 01:31:06

在hdfs中需要理解的要点是，文件根据大小分为块，而不是内存中会有一些块，用于存储文件（这是误解）

基本上多个文件不会存储在单个块中（除非是 Archive 或 Har 文件）。

回复收藏 0 原文

~没有更多了~

关于作者

原谅我要高飞

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

寻找一个思念的角度

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文