读取。部分文件

发布于 2025-02-07 16:29:18 字数 599 浏览 2 评论 0 原文

我正在建立一个模型,该模型在.csv文件(〜50GB)中使用了大型数据集。我的机器是Windows 10,带有16GB RAM。

由于我没有足够的RAM来加载整个数据集,因此我使用 dask 该文件并将它们分成较小的数据集。它运行良好,我能够将其保存到 ... ,如此 image

我已经尝试过,

!pip install dask
import dask.dataframe as dd

cat = dd.read_csv(paths.data + "cat.csv/*")
cat.head(5)

但是即使数据保持在最低限度,它也只是继续加载。 有人可以帮我吗?谢谢。

I am building a model which used large datasets in .csv files (~50Gb). My machine is a Windows 10 with 16Gb of RAM.

Since I don't have enough RAM to load the whole dataset, I used Dask to read the file and split them into smaller data sets. It worked just fine and I was able to save it into files like these. However, when I read the files, it only showed ... in every boxes like in this image

I have tried

!pip install dask
import dask.dataframe as dd

cat = dd.read_csv(paths.data + "cat.csv/*")
cat.head(5)

but it simply kept loading even though the data is kept to a minimum.
Can anyone please help me? Thank you.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

花海 2025-02-14 16:29:18

... 符号是预期的,因为数据未加载在内存中。这里有一个详细的Dutorial教程: htttps://tutorial.dask.org.dask.orgg/04_dataaframe.htmll < /a>

The ... symbol is expected, since the data is not loaded in memory. There is a detailed tutorial on dask dataframes here: https://tutorial.dask.org/04_dataframe.html

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文