dask-dataframe

dask-dataframe

文章 0 浏览 2

将SQL查询读取到DASK数据框

我正在尝试创建一个将SQL选择查询作为参数的函数,并使用dask使用 dask.read_sql_query function将其结果读取到dask dataframe中。我是Dask和Sqlalche…

尤怨 2025-02-01 08:15:15 4 0

dask:具有不同汇总规则

我正在使用DASK中的面板数据(即,ID和时间段的面板)工作,并希望将频率从微秒重新置于30秒。示例数据看起来像这样: size price ID datetime 2018-0…

思念绕指尖 2025-01-31 13:32:56 5 0

替换dask map_partitions中的现有列提供设置WithCopyWarning

我正在使用 dask 使用 map_partitions 在 dask dataframe中替换列 ID2 。结果是替换了值,但用 pandas 警告。 该警告是什么,以及如何在下面的示例中…

优雅的叶子 2025-01-30 17:10:41 4 0

DASK内存泄漏解决方法

当使用dask数据框时,我将获得“分布式。这发生在系统用完内存和交换之前。是否有解决方法,还是我做错了什么。我正在阅读的文件可以在 https:/lcb.ap…

国粹 2025-01-28 01:27:35 4 0

您如何从dask掉下行,值计数不符合某个阈值?

我正在使用一个相当大的数据集。未压缩的CSV约为20 GB。我正在尝试使用dask,但对此并不熟悉。我通常使用熊猫。我试图将列中特定值的实例数量的数量小…

长发绾君心 2025-01-27 15:21:45 3 0

无法使用类型对象Dask执行STD

在DASK上执行正常计算给我错误的 x_std = x.std().compute() 计算头: x.head() LocalTime Ask Bid 0 2004.10.25 00:01:01.975 86.837 86.877 1 2004.…

情深缘浅 2025-01-26 18:10:17 4 0

没有这样的文件或目录:fastparquet.llibs \\。load_order

我正在尝试使用 parquet 使用 dask 将 csv 文件转换为 dask 。 我使用的代码是: import dask.dataframe as dd name_function = lambda x: f"tablenam…

樱娆 2025-01-20 15:52:42 4 0

如何根据dask数据框中的另一列条件更新列值

我正在使用DASK DataFrame读取25 GB数据, 正在尝试从另一列中过滤基于条件的列,并将其变为NAN值。在熊猫中,我们使用类似的东西, df.loc[ df['Refe…

大海や 2025-01-20 11:58:52 5 0

将SPARK DATAFRAME转换为DASK数据框

首先,我将名为 calendar 的 Spark df 编写为名为 cal 的 parquet 文件。 calendar.write.parquet("/user/vusal.babashov/dataset/cal", mode="overwr…

下雨或天晴 2025-01-18 16:25:50 4 0

Dask计算商店结果吗?

考虑下面的代码 import dask import dask.dataframe as dd import pandas as pd data_dict = {'data1':[1,2,3,4,5,6,7,8,9,10]} df_pd = pd.DataFrame…

彡翼 2025-01-18 13:57:49 4 0

使用dask返回多个数据框

我正在使用Read_CSV()读取一长串CSV文件并返回两个数据范围。 我已经通过使用DASK设法加快了此操作。不幸的是,我在使用DASK时无法返回多个变量。 …

我是男神闪亮亮 2025-01-18 09:00:10 5 0

“dask.dataframe”没有属性“read_sql_query”;

我尝试了多个示例,例如: pip install“ dask [complete]” 。大概是Stackoverflow或任何其他网站上提到的所有可能的解决方案,但我仍然会遇到这些废…

玉环 2025-01-18 01:03:25 1 0

如何在Python中过滤和清理多个Dask框架?

将多个 .csv 文件作为 Dask 数据帧进行读取/附加,我试图通过排除不必要的内容来清理框架行。 但这会引发数据类型不匹配的错误,尽管下面的代码能够…

深府石板幽径 2025-01-17 16:50:53 1 0

连接两个非常大的 dask 数据帧

我有许多大型数据集(大到比 RAM 还大),我想对其执行过滤、连接和连接。 Pandas 失败了,因为每个数据集大小(大约 25GB)都大于我的 RAM(16GB)。…

长梦不多时 2025-01-17 02:49:13 3 0

为什么无论数据帧大小如何,dask 都需要很长时间来计算

无论数据帧大小如何,dask 数据帧都需要很长时间来计算的原因是什么。 如何避免这种情况的发生?其背后的原因是什么? 编辑: 我目前正在使用 ml.c5.2…

夜还是长夜 2025-01-16 11:05:10 1 0
更多

推荐作者

闻呓

文章 0 评论 0

深府石板幽径

文章 0 评论 0

mabiao

文章 0 评论 0

枕花眠

文章 0 评论 0

qq_CrTt6n

文章 0 评论 0

红颜悴

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文