当前位置：文江博客话题详情

为什么Hadoop文件系统不支持随机I/O？

发布于 2024-11-02 19:34:56 字数 175 浏览 7 评论 0原文

Google File System、Hadoop 等分布式文件系统不支持随机 I/O。
（它不能修改以前写入的文件。只能写入和追加。）

为什么他们要这样设计文件系统？
该设计有哪些重要优点？

PS我知道Hadoop将支持修改写入的数据。
但他们表示，它的性能会很不好。为什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

够钟 2024-11-09 19:34:56

Hadoop 分发和复制文件。由于文件是复制的，任何写入操作都必须通过网络找到每个复制的部分并更新文件。这将大大增加手术时间。更新文件可能会超出块大小，并需要将文件分成 2 个块，然后复制第二个块。我不知道内部结构以及何时/如何分割一个块......但这是一个潜在的复杂性。

如果作业失败或被杀死，并且已经进行了更新并重新运行，该怎么办？它可以多次更新文件。

在分布式系统中不更新文件的优点是，当你更新文件时，你不知道还有谁在使用该文件，你也不知道这些片段存储在哪里。存在潜在的超时（带有块的节点无响应），因此您可能最终会得到不匹配的数据（同样，我不知道 hadoop 的内部结构，并且可能会处理节点关闭的更新，这只是我正在集思广益的事情）

更新 HDFS 上的文件存在很多潜在问题（上面列出了一些问题）。它们都不是不可克服的，但它们需要对性能造成影响来检查和解释。

由于 HDFS 的主要目的是存储用于 MapReduce 的数据，因此行级更新在此阶段并不那么重要。

回复收藏 0 原文

清晰传感 2024-11-09 19:34:56

我认为这是因为数据的块大小和 Hadoop 的整体思想是你不移动数据，而是将算法移动到数据上。

Hadoop 专为数据的非实时批处理而设计。如果您正在寻找在响应时间和随机访问方面实现更像传统 RDBMS 的方法，请查看 HBase 它构建在 Hadoop 之上。

回复收藏 0 原文

~没有更多了~

关于作者

感受沵的脚步

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

为什么Hadoop文件系统不支持随机I/O？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

为什么Hadoop文件系统不支持随机I/O？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。