dask-dataframe

dask-dataframe

文章 0 浏览 2

Dask Dataframe 形状属性给出了错误的形状

我正在尝试找到较大 dask 数据帧的子集数据帧的形状。但是我没有得到正确的形状(行数),而是得到了错误的值 在示例中,我将前 3 行存储到一个新的数…

‘画卷フ 2025-01-16 10:45:20 7 0

如何保存数据库以便数据框可读?

该程序需要一些 .csv 数据库,对它们执行计算操作,然后需要保存结果数据库,以便使用 Dask.Dataframe 读取它。 在 Python 中读回上传的文件时,数据…

ㄖ落Θ余辉 2025-01-16 05:59:15 2 0

如何读取 dask 中部分重叠的列集的实木复合地板列表?

考虑这段代码: import dask.dataframe as dd import numpy as np df1=pd.DataFrame({'A': [1, 2], 'B': [11, 12]}) df1.to_parquet("df1.parquet") d…

2025-01-16 02:23:44 3 0

Dask 内存不足 (16GB) 使用 apply 时

我正在尝试对大约 3.5GB+(组合 csv 大小)的数据(由 6 个 csv 组合而成)进行一些字符串操作。 ** **Total csv size : 3.5GB+, Total Ram Size : 16…

飘然心甜 2025-01-15 21:39:22 3 0

使用Dask dataframe的scipy插值方法

我已经从某人的 GitHub 代码或 dask 问题中阅读了一堆 dask 示例。但在使用 Scipy 插值和 Dask 并行计算时仍然遇到问题,希望有人能帮助我解决它。 我…

王权女流氓 2025-01-15 03:51:33 5 0

将 dask 数据帧存储在 parquet 中时,map_partitions 运行两次并计算记录数

我有一个 dask 进程,在每个数据帧分区上运行一个函数。我让 to_parquet 来做 运行函数的compute()。 但我还需要知道 parquet 表中的记录数。为此,我…

孤凫 2025-01-14 21:12:02 7 0

将 Dask Dataframe 中的列拆分为 n 列

在 Dask 数据框中的一列中,我有这样的字符串: column_name_1 column_name_2 a^b^c j e^f^g k^l h^i m 我需要将这些字符串拆分为以下列: 数据框,就…

绮烟 2025-01-14 15:20:56 2 0

如何在 isin() 内提供数据帧

我想将 sql 查询转换 SELECT * FROM df WHERE id IN (SELECT id FROM an_df) 为 dask 等效项。 所以,我正在尝试这个: d=df[df['id'].isin(an_df['id…

潦草背影 2025-01-14 10:21:23 8 0

应用 lambda 或定义一个函数在 dask 数据框中返回 1 else 0

可能很简单,但我仍在学习。 我正在 dask 数据框中创建一个新列,其中的值将来自提取 str ddmmyyyy 中 date 列的最后四个 str 字符。 我所做的: 有一…

最佳男配角 2025-01-13 18:42:18 3 0

在 dask 中的 if-else 之后创建一个新列

df['new_col'] = np.where(df['col1'] == df['col2'] , True, False),其中 col1 和 col2 都是 str 数据类型,看起来很漂亮直接向前。在 if else 语句…

阪姬 2025-01-12 21:47:36 2 0

根据源 dask df 的布尔比较结果,从变量创建新的 dask df

我想做的是创建一个新的 ddf,其中包含来自源 ddf 的布尔值的列。 var1=ddf[col1]==ddf[col2], var2=ddf[col3]==ddf[col4],... 直到 var8,然后从 var…

静谧幽蓝 2025-01-12 17:18:15 2 0

当计算/保存具有 6700 万行的 dask 数据帧时内存已满

我在分析多个 df 时遇到了这个问题,每个 df 大约有 6700 万行。我可以计算()或导出到_csv任何单独的df。我正在使用 for 循环创建 50 个 df 并将它…

第七度阳光i 2025-01-10 18:48:06 4 0

Dask:任务停滞?

我有一个 dask 批量推理工作负载,它对 50 万行特征应用机器学习预测。我在 AWS 上的 EMR 实例上使用 dask-yarn。似乎有一些掉队的人阻碍了达斯克,我…

梅倚清风 2025-01-10 14:24:06 5 0

将转换后的日期时间 str 分配回 dask df

我将 dask 数据框字符串日期列转换为 pandas 日期时间,并创建了一个日期时间索引。 行将其分配回源 dask 数据 当我尝试使用ddf.assign(date=date_par…

你的他你的她 2025-01-10 04:12:12 2 0

更新:如何从 dask 数据帧转换/解析 str 日期

更新: 我能够执行转换。下一步是将其放回 ddf。 按照书中的建议,我所做的是: 解析日期并将其存储为单独的变量。 使用附加删除原始日期列 ddf2=ddf.…

握住我的手 2025-01-09 13:19:17 3 0
更多

推荐作者

闻呓

文章 0 评论 0

深府石板幽径

文章 0 评论 0

mabiao

文章 0 评论 0

枕花眠

文章 0 评论 0

qq_CrTt6n

文章 0 评论 0

红颜悴

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文