将SQL查询读取到DASK数据框
我正在尝试创建一个将SQL选择查询作为参数的函数,并使用dask使用 dask.read_sql_query function将其结果读取到dask dataframe中。我是Dask和Sqlalche…
dask:具有不同汇总规则
我正在使用DASK中的面板数据(即,ID和时间段的面板)工作,并希望将频率从微秒重新置于30秒。示例数据看起来像这样: size price ID datetime 2018-0…
替换dask map_partitions中的现有列提供设置WithCopyWarning
我正在使用 dask 使用 map_partitions 在 dask dataframe中替换列 ID2 。结果是替换了值,但用 pandas 警告。 该警告是什么,以及如何在下面的示例中…
您如何从dask掉下行,值计数不符合某个阈值?
我正在使用一个相当大的数据集。未压缩的CSV约为20 GB。我正在尝试使用dask,但对此并不熟悉。我通常使用熊猫。我试图将列中特定值的实例数量的数量小…
无法使用类型对象Dask执行STD
在DASK上执行正常计算给我错误的 x_std = x.std().compute() 计算头: x.head() LocalTime Ask Bid 0 2004.10.25 00:01:01.975 86.837 86.877 1 2004.…
没有这样的文件或目录:fastparquet.llibs \\。load_order
我正在尝试使用 parquet 使用 dask 将 csv 文件转换为 dask 。 我使用的代码是: import dask.dataframe as dd name_function = lambda x: f"tablenam…
如何根据dask数据框中的另一列条件更新列值
我正在使用DASK DataFrame读取25 GB数据, 正在尝试从另一列中过滤基于条件的列,并将其变为NAN值。在熊猫中,我们使用类似的东西, df.loc[ df['Refe…
将SPARK DATAFRAME转换为DASK数据框
首先,我将名为 calendar 的 Spark df 编写为名为 cal 的 parquet 文件。 calendar.write.parquet("/user/vusal.babashov/dataset/cal", mode="overwr…
Dask计算商店结果吗?
考虑下面的代码 import dask import dask.dataframe as dd import pandas as pd data_dict = {'data1':[1,2,3,4,5,6,7,8,9,10]} df_pd = pd.DataFrame…
“dask.dataframe”没有属性“read_sql_query”;
我尝试了多个示例,例如: pip install“ dask [complete]” 。大概是Stackoverflow或任何其他网站上提到的所有可能的解决方案,但我仍然会遇到这些废…
如何在Python中过滤和清理多个Dask框架?
将多个 .csv 文件作为 Dask 数据帧进行读取/附加,我试图通过排除不必要的内容来清理框架行。 但这会引发数据类型不匹配的错误,尽管下面的代码能够…
连接两个非常大的 dask 数据帧
我有许多大型数据集(大到比 RAM 还大),我想对其执行过滤、连接和连接。 Pandas 失败了,因为每个数据集大小(大约 25GB)都大于我的 RAM(16GB)。…
为什么无论数据帧大小如何,dask 都需要很长时间来计算
无论数据帧大小如何,dask 数据帧都需要很长时间来计算的原因是什么。 如何避免这种情况的发生?其背后的原因是什么? 编辑: 我目前正在使用 ml.c5.2…