Databricks社区版中的大数据预处理

发布于 2025-01-22 10:21:03 字数 85 浏览 0 评论 0原文

我有16 GB数据集,并希望在数据链球键中使用它。但是,在社区版中,DBFS限制为10 GB。 您可以帮助我预处理数据,以便能够将其从驱动程序转移到DBF。

I have 16 GB dataset and want to use it in databricks. However, in community edition DBFS limit is 10 GB.
May you please assist me to preprocess the data to be able to move it from driver to DBFS.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

嘦怹 2025-01-29 10:21:03

最简单的方法是不使用DBF(仅专为临时数据而设计),而是主机数据&产生您自己的环境,例如, aws s3 桶或(可能是更高的转移成本)。

如果您不能使用它,那么解决方案取决于其他因素 - 输入文件格式是什么,例如,它是压缩/未压缩的,等等。

The simplest way for that is not to use DBFS (it's designed only for temporary data), but host data & results in your own environment, like, AWS S3 bucket or ADLS (could be a higher transfer costs).

If you can't use it, then solution depends on other factors - what is the input file format, like, is it compressed/uncompressed, etc.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文