Dask Dataframe 形状属性给出了错误的形状
我正在尝试找到较大 dask 数据帧的子集数据帧的形状。但是我没有得到正确的形状(行数),而是得到了错误的值 在示例中,我将前 3 行存储到一个新的数…
如何保存数据库以便数据框可读?
该程序需要一些 .csv 数据库,对它们执行计算操作,然后需要保存结果数据库,以便使用 Dask.Dataframe 读取它。 在 Python 中读回上传的文件时,数据…
如何读取 dask 中部分重叠的列集的实木复合地板列表?
考虑这段代码: import dask.dataframe as dd import numpy as np df1=pd.DataFrame({'A': [1, 2], 'B': [11, 12]}) df1.to_parquet("df1.parquet") d…
Dask 内存不足 (16GB) 使用 apply 时
我正在尝试对大约 3.5GB+(组合 csv 大小)的数据(由 6 个 csv 组合而成)进行一些字符串操作。 ** **Total csv size : 3.5GB+, Total Ram Size : 16…
使用Dask dataframe的scipy插值方法
我已经从某人的 GitHub 代码或 dask 问题中阅读了一堆 dask 示例。但在使用 Scipy 插值和 Dask 并行计算时仍然遇到问题,希望有人能帮助我解决它。 我…
将 dask 数据帧存储在 parquet 中时,map_partitions 运行两次并计算记录数
我有一个 dask 进程,在每个数据帧分区上运行一个函数。我让 to_parquet 来做 运行函数的compute()。 但我还需要知道 parquet 表中的记录数。为此,我…
将 Dask Dataframe 中的列拆分为 n 列
在 Dask 数据框中的一列中,我有这样的字符串: column_name_1 column_name_2 a^b^c j e^f^g k^l h^i m 我需要将这些字符串拆分为以下列: 数据框,就…
如何在 isin() 内提供数据帧
我想将 sql 查询转换 SELECT * FROM df WHERE id IN (SELECT id FROM an_df) 为 dask 等效项。 所以,我正在尝试这个: d=df[df['id'].isin(an_df['id…
应用 lambda 或定义一个函数在 dask 数据框中返回 1 else 0
可能很简单,但我仍在学习。 我正在 dask 数据框中创建一个新列,其中的值将来自提取 str ddmmyyyy 中 date 列的最后四个 str 字符。 我所做的: 有一…
在 dask 中的 if-else 之后创建一个新列
df['new_col'] = np.where(df['col1'] == df['col2'] , True, False),其中 col1 和 col2 都是 str 数据类型,看起来很漂亮直接向前。在 if else 语句…
根据源 dask df 的布尔比较结果,从变量创建新的 dask df
我想做的是创建一个新的 ddf,其中包含来自源 ddf 的布尔值的列。 var1=ddf[col1]==ddf[col2], var2=ddf[col3]==ddf[col4],... 直到 var8,然后从 var…
当计算/保存具有 6700 万行的 dask 数据帧时内存已满
我在分析多个 df 时遇到了这个问题,每个 df 大约有 6700 万行。我可以计算()或导出到_csv任何单独的df。我正在使用 for 循环创建 50 个 df 并将它…
将转换后的日期时间 str 分配回 dask df
我将 dask 数据框字符串日期列转换为 pandas 日期时间,并创建了一个日期时间索引。 行将其分配回源 dask 数据 当我尝试使用ddf.assign(date=date_par…
更新:如何从 dask 数据帧转换/解析 str 日期
更新: 我能够执行转换。下一步是将其放回 ddf。 按照书中的建议,我所做的是: 解析日期并将其存储为单独的变量。 使用附加删除原始日期列 ddf2=ddf.…