当前位置：文江博客话题详情

为什么要从Databricks Spark Notebook（Hadoop Fileutils）写入DBFS安装位置的位置慢13倍？

发布于 2025-01-23 05:59:26 字数 1217 浏览 2 评论 0原文

Databricks笔记本电脑需要2个小时才能写入 /dbfs /mnt（blob存储）。同样的工作需要8分钟才能写入 /dbfs /filestore。

我想了解为什么在两种情况下写作表现都不同。我还想知道哪个后端存储 /dbfs /filestor用途？

我知道DBFS是可扩展对象存储的顶部的抽象。在这种情况下，对于/dbfs/mnt/blobstorage和/dbfs/filestore/，应该花费相同的时间。

问题语句：

源文件格式：.TAR.GZ

AVG大小：10 MB

tar.gz文件的数量：1000

个tar.gz文件约20000 CSV文件。

要求： 取消tar.gz文件，然后将CSV文件写入BLOB存储 /中间存储层，以进行进一步处理。

UNTAR并写入安装位置（附加的屏幕快照）：

在这里，我使用Hadoop Fileutil库和UNTAR函数将其用于UNTAR，然后将CSV文件写入目标存储（/dbfs/mnt/-blob存储）。用2个工作节点（每个4个）群集完成工作需要1.50小时。

untar并写信给DBFS root filestore：在这里，我将Hadoop Fileutil库和UNTAR函数用于UNTAR，并将CSV文件写入目标存储（/dbfs/filestore/）用2个工作节点（每个4个）群集完成工作仅需8分钟即可。

问题： 为什么写信给DBFS/FILESTORE或DBFS/DATABRICKS/驱动程序的速度比写入DBFS/MNT存储的速度快15倍？

DBF在后端使用了dbfs root（ /filestore， /databricks-datasets， /databricks /驱动程序）？每个子文件夹的尺寸限制是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无言温柔 2025-01-30 05:59:26

可能有多种因素影响

这
一点例如，您的斑点存储空间，如果从其他群集中有很多读取/写入或列表操作 - 这可能会导致Spark任务的重试（如果您有任何错误的任务，请检查Spark UI）。另一方面，/filestore位于专用blob存储中（SO-Called dbfs root ），并未那么加载。

通常，对于DBF，使用Azure Blob存储，而不是ADL。带有层次命名空间的ADL具有额外的操作开销，因为它需要检查权限等。这也可能影响性能。

但是要解决这个问题，最好打开支持票，因为它可能需要后端调查。

PS请注意，DBFS根应仅用于临时数据，因为它仅可从工作区访问，因此您无法与其他工作区或其他消费者共享数据。

回复收藏 0 原文

~没有更多了~

关于作者

魄砕の薆

暂无简介

文章

28 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

为什么要从Databricks Spark Notebook（Hadoop Fileutils）写入DBFS安装位置的位置慢13倍？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者