pyarrow

pyarrow

文章 0 浏览 1

使用 pyarrow 读取 CSV 文件时,如何为所有列指定 dtype?

我想用 pyarrow 读取一个大的 CSV 文件。我所有的列都是 float64 的。但 pyarrow 似乎正在推断 int64。 如何为所有列指定数据类型? import gcsfs imp…

沒落の蓅哖 2025-01-15 18:30:42 2 0

如何使用 pyarrow.csv.read_csv 从文件系统读取文件?

我想用 pyarrow 读取 google 存储桶中的单个 CSV 文件。我该怎么做? 我可以使用 gcsfs 创建一个 FileSystem 对象,但我没有找到将其提供给 pyarrow.c…

狂之美人 2025-01-15 05:03:21 3 0

ParquetDataset 不从过滤器中获取分区

我有一个存储在 s3 上的镶木地板数据集,我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。 我的 s3 数据集使用配置单元分区(客户端=,年份= .…

夜声 2025-01-14 23:50:28 2 0

是否可以将 Spark 工作线程上的数据直接加载到 Apache Arrow 内存格式中,而无需先将其加载到 Spark 的内存格式中?

我们有一个用例,用于进行大量向量乘法并对结果求和,这样输入数据通常无法放入单个主机的 RAM 中,即使使用 0.5 TB RAM EC2 实例(拟合 OLS 回归模型…

苄①跕圉湢 2025-01-13 11:05:34 2 0

`RecordBatch` 能做什么而 `StructArray` 不能?

在 Arrow 中存在的不同类型的数组中,StructArray 就是其中之一。当使用 PyArrow 转换为 pandas 结构时,它返回一个包含多行的 pd.Series ,每行都包…

木有鱼丸 2025-01-13 07:12:17 4 0

是否可以将行追加到现有的 Arrow (PyArrow) 表中?

我知道“许多 Arrow 对象是不可变的:一旦构造,它们的逻辑属性就不能再改变”(文档)。在 Arrow 创建者之一的这篇博文中,据说 Arrow C++ 中的表列…

衣神在巴黎 2025-01-13 01:38:59 3 0

使用基于文件的收集时不支持 arrow,而从 pandas 转换为 Spark 时,反之亦然

我正在尝试使用 arrow enabling spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true"), but getting following error /databricks/s…

笑咖 2025-01-12 21:59:58 3 0

有没有办法控制 Apache Arrow 批量大小?

我想了解是否有一种机制来控制从服务器发送到客户端的批量大小。 我已经从 Github repo 实现了 python 服务器一个基本的 F# 客户端。 作为测试,我添…

甜尕妞 2025-01-12 18:22:51 5 0

尝试在 Python 笔记本中将地理数据框上传到 BigQuery 时遇到 ArrowTypeError:输入对象不是 NumPy 数组

我正在使用 Python 笔记本中的函数尝试将地理数据框上传到 BigQuery 表中: def geopandas_to_gbq(geodataframe, dataset_name, table_name, replace_…

耶耶耶 2025-01-12 15:45:03 3 0

箭头中表和数据集 API 之间的差异

从文档中,我了解到 arrow 提供了 datasets API 来处理比内存更大的数据。两者都具有自动谓词/投影下推功能(这使得它处理的数据无论如何都大于内存中…

晨敛清荷 2025-01-12 12:47:22 3 0

使用 pandas 和 parquet 的效率

人们谈论了很多关于使用 镶木地板和熊猫。我正在努力了解与 pandas 一起使用时我们是否可以利用 parquet 文件的全部功能。例如,假设我有一个大 parqu…

心如荒岛 2025-01-11 12:29:42 2 0

用于字符串计算的 Bigquery 或 Pyarrow。有公布的基准吗?

我在 BigQuery 上有一些数据集,它们最初是 Json 字符串......架构是 但详细信息隐藏在该字符串中作为 Json 字典,例如: 2022-01-01 10:11:12.123 UT…

久夏青 2025-01-10 22:26:16 1 0

pyarrow read_csv - 如何用空值填充尾随可选列

我找不到使用 pyarrow.csv.read_csv 的选项或解决方法,并且还有许多其他原因导致使用 pandas 对我们不起作用。 我们有 csv 文件,其最后一列实际上是…

梅窗月明清似水 2025-01-09 16:30:03 4 0

将 DataFrame 加载到 BigQuery 表时出错(pyarrow.lib.ArrowTypeError:类型为 的对象无法转换为 int)

我在 GCS 中存储了一个 CSV 文件,我想将其加载到 BigQuery 表中。但我需要先做一些预处理,所以我将其加载到 DataFrame,然后加载到 BigQuery 表 imp…

毁梦 2025-01-08 23:39:49 2 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文