pyarrow

pyarrow

文章 0 浏览 1

读回Pyarrow保存的Pandas DataFrame给出错误的值

我试图使用Pyarrow V2将Pandas DataFrame保存到镶木格式,并遇到了一个奇怪的问题。 (简化的)数据框有一个字符串列和一个嵌套列(DICS列表)。这是…

长发绾君心 2025-02-02 19:06:04 4 0

在ubuntu中无法打开Windows中创建的镶木材料文件

因此,我已经在Windows 10计算机上使用以下行创建了一个镶木quet文件 # pandas and pyarrow installed using pip on Python 3.9 # pip install pandas…

青芜 2025-02-01 21:04:10 4 0

我如何使用Awswrangler仅读取存储在S3中的木板文件的前几行?

我正在尝试使用Awswrangler来读取pandas dataframe一个任意的大型镶木式文件,但由于文件的大小而将我的查询限制为第一个 n 行(以及我差的带宽)。 …

平生欢 2025-02-01 04:42:35 4 0

Python:TypeError:预期字节,发现(尝试做嵌套元数据)

我想将嵌套的元数据如下: schema = pa.schema([pa.field('Id', pa.string(), metadata={"pg_dtype": {"dtype": "int[36]", "pkey": "1"}}), pa.field…

带上头具痛哭 2025-01-31 21:00:06 3 0

在Pyarrow阅读时更改JSON字段类型

我有一个字段JSON,最后我想将其转换为Parquet,因此我需要更改类型: {"SomeDecimal": "44444"} 和代码: import pyarrow as pa from pyarrow import…

烟雨扶苏 2025-01-29 19:36:28 3 0

如何从R连接到HDFS并使用箭头读取/写parquet?

我想在HDF中使用几个Parquet文件,我想在R中读取R,并且R中的一些数据我想写入HDFS并以Parquet文件格式存储。我想使用Arrow库,因为我相信这相当于Pya…

二手情话 2025-01-29 02:11:41 5 0

ModulenotFoundError:没有名为' pyarrow.lib&#x27的模块

这是完整的错误消息。 Traceback (most recent call last): File "C:\Users\adi\OneDrive\Desktop\Python310\machine learning project.py", line 3, …

如果没有你 2025-01-28 05:07:18 3 0

将TensorFlow数据集转换为Beam数据集

有多种方法可以获取一个可以在TensorFlow进行训练的数据集。 Tensorflow变换所做的一件事是提供通过 AnalyzeanDtransFormDataSet 和 transformdataset…

信愁 2025-01-28 05:00:17 5 0

如何在Polars或Pyarrow中获取字符串列

我有一个带有字符串键列的pandas dataframe / polars dataframe / pyarrow表。您可以假设字符串是随机的。我想根据此密钥列将该数据框架分为n个较小的…

冰葑 2025-01-27 13:56:34 3 0

PYARROW依赖性自定义构建轮

我正在使用PYBIND11开发一个Python软件包,该软件包依赖于Pyarrow在Python和C ++中的数据类型之间进行互动。因此,我使用以下脚本构建Apache-Arrow: …

执手闯天涯 2025-01-26 22:31:51 2 0

如何在熊猫中移动列

我的pyarrow表带有这样的标头:['column1','column2','column3','column4','column5'] 我想交换和模式列标题和数据: ['column1','column2','co…

三岁铭 2025-01-26 16:27:02 4 0

从S3读取PD.Read_Parquet的超时,并了解配置

我正在尝试以各种文件格式(CSV,Pickle,feather,分区的镶木,...)来简化对数据集的访问,以S3对象。由于我支持的某些用户具有不同的环境,其升级…

哆兒滾 2025-01-26 16:18:19 3 0

arrowinvalid:getfileinfo()产生的路径在基本dir parquet之外

我在我的S3存储桶中存储了一个带有多个分区文件的镶木quet数据集。我想将其阅读到我的熊猫数据框架中,但是当我以前没有时会遇到此Arrowinvalid错误。…

缱倦旧时光 2025-01-25 08:00:50 2 0

Pyarrow时间戳不断转换为1970

我正在尝试将带有所有其他数据的时间戳存储在我的数据框架中,这意味着将数据存储到磁盘中的时间,并将其存储在parquet文件中。通常,我只是将时间戳…

幸福还没到 2025-01-23 19:26:45 4 0

与Pyarrow的链滤器

我正在尝试使用多个参数在Pyarrow中搜索表。 看起来过滤器可以被束缚,但是我错过了使它实际上起作用的神奇咒语。 表从CSV加载,因此结构可以工作 - …

待天淡蓝洁白时 2025-01-23 16:57:49 4 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文