如何使用dask读取Protobuf文件?
是否有人尝试通过Dask读取Protobuf文件?我拥有的每个Protobuf文件都有多个记录,并且每个记录都在摘要中所示的记录长度(4个字节)前缀。 这是当前读…
dask-slurmcluster:[errno 104] peer的连接重置
我正在使用 xarray 与 slurmcluster 一起遇到问题。 我正在使用 pandas_plink 将某些数据加载到 xarray 中,然后对其进行过滤并进行一些计算。一切正…
Concat排序的DASK数据框
我有 ts 列(无索引)对N dask数据框架进行排序。我想创建一个dataframe- con缩所有它们,但仍然通过此 ts 列对其进行排序。 注意: ts 可以在数据范…
也许是用PANDAS DataFrame读取太大的文件或一步一步读取所有文件,是否更有利润?
个CPU和20 GB的磁盘的实例中运行了 脚本 我已经在18GB的RAM, 4 制作清洁数据(添加列,转换为特定类型),将块数据转换为特定文件类型(Parquet),…
训练ML模型时,GPU的内存用完了
我正在尝试使用DASK训练ML模型。我正在用1 GPU在本地机器上进行培训。我的GPU有24个gibs的记忆。 from dask_cuda import LocalCUDACluster from dask.…
Python Pandas:分区尺寸小于重叠的窗口大小
我正在尝试使用 pandas 使用 switfer 来计算时间序列的斜率。 我的代码: import os.path from os import listdir from os.path import isfile, join …
dask map_blocks较早运行,重叠和嵌套过程的结果不好
我正在使用dask创建一个简单的数据操作管道。我基本上使用了3个功能。前两个使用简单的 map_blocks ,第三个也使用 map_blocks ,但用于重叠的数据。 …
使用set_index使用dask系列在dask dataframe上使用set_index时长度不匹配错误
import pandas as pd import numpy as np import dask.array as dka import dask.dataframe as dkf vals = np.arange(200).reshape(20,10) vals = dk…
使用“ dask”填充在同类中存储在同类中的boost_histograms。
我有一个 dask - boost_histogram 问题。我的代码结构如下: 我在某些脚本中定义了一个类: class MyHist: def __init__(....): self.bh = None def m…
将嵌套 JSON 读取到 Dask DataFrame 中
我正在尝试将嵌套的 JSON 读入 Dask DataFrame,最好使用能够完成繁重工作的代码。 这是我正在阅读的 JSON 文件: { "data": [{ "name": "george", "a…
没有这样的文件或目录:fastparquet.llibs \\。load_order
我正在尝试使用 parquet 使用 dask 将 csv 文件转换为 dask 。 我使用的代码是: import dask.dataframe as dd name_function = lambda x: f"tablenam…
如何根据dask数据框中的另一列条件更新列值
我正在使用DASK DataFrame读取25 GB数据, 正在尝试从另一列中过滤基于条件的列,并将其变为NAN值。在熊猫中,我们使用类似的东西, df.loc[ df['Refe…
- 共 1 页
- 1