Databricks社区版中的大数据预处理
我有16 GB数据集,并希望在数据链球键中使用它。但是,在社区版中,DBFS限制为10 GB。 您可以帮助我预处理数据,以便能够将其从驱动程序转移到DBF。
I have 16 GB dataset and want to use it in databricks. However, in community edition DBFS limit is 10 GB.
May you please assist me to preprocess the data to be able to move it from driver to DBFS.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
最简单的方法是不使用DBF(仅专为临时数据而设计),而是主机数据&产生您自己的环境,例如, aws s3 桶或(可能是更高的转移成本)。
如果您不能使用它,那么解决方案取决于其他因素 - 输入文件格式是什么,例如,它是压缩/未压缩的,等等。
The simplest way for that is not to use DBFS (it's designed only for temporary data), but host data & results in your own environment, like, AWS S3 bucket or ADLS (could be a higher transfer costs).
If you can't use it, then solution depends on other factors - what is the input file format, like, is it compressed/uncompressed, etc.