Dask在写入镶木quet文件时如何使用RAM?

发布于 2025-02-12 11:31:08 字数 494 浏览 0 评论 0原文

我使用dask的原因有2个:

(1)在将pandas数据框架分配给1亿行数据时减少RAM存储器的使用情况。 (2)能够分析比RAM大的数据。 (目前,我使用的是50GB RAM。)

我还需要将这1亿行数据保存到Parquet文件中。

dask是否将整个数据框加载到内存以写入镶木木文件? 写入镶木quet文件时的内存使用效率有多高?

提前致谢。

这是写入压缩镶木文件的代码。

path_out = "/content/drive/MyDrive/AffinityScore_STAGING/staging_affinity_block1_from_DASK2.gzip"
dask_df.to_parquet(path_out, compression='gzip', write_metadata_file=False)

I am using Dask for 2 reasons:

(1) To reduce the RAM memory usage when Pandas dataframe is assigned to 100 million rows of data.
(2) Able to analyze data that is bigger than RAM. (Currently, I am using 50GB RAM.)

I also need to save these 100 million rows of data to parquet files.

Does Dask load the entire dataframe to memory in order to write to a parquet file?
How efficient is the memory usage when writing to a parquet file?

Thanks in advance.

Here is the code to write to a compressed parquet file.

path_out = "/content/drive/MyDrive/AffinityScore_STAGING/staging_affinity_block1_from_DASK2.gzip"
dask_df.to_parquet(path_out, compression='gzip', write_metadata_file=False)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文