使用 pyarrow 读取 CSV 文件时,如何为所有列指定 dtype?
我想用 pyarrow 读取一个大的 CSV 文件。我所有的列都是 float64 的。但 pyarrow 似乎正在推断 int64。 如何为所有列指定数据类型? import gcsfs imp…
如何使用 pyarrow.csv.read_csv 从文件系统读取文件?
我想用 pyarrow 读取 google 存储桶中的单个 CSV 文件。我该怎么做? 我可以使用 gcsfs 创建一个 FileSystem 对象,但我没有找到将其提供给 pyarrow.c…
ParquetDataset 不从过滤器中获取分区
我有一个存储在 s3 上的镶木地板数据集,我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。 我的 s3 数据集使用配置单元分区(客户端=,年份= .…
是否可以将 Spark 工作线程上的数据直接加载到 Apache Arrow 内存格式中,而无需先将其加载到 Spark 的内存格式中?
我们有一个用例,用于进行大量向量乘法并对结果求和,这样输入数据通常无法放入单个主机的 RAM 中,即使使用 0.5 TB RAM EC2 实例(拟合 OLS 回归模型…
`RecordBatch` 能做什么而 `StructArray` 不能?
在 Arrow 中存在的不同类型的数组中,StructArray 就是其中之一。当使用 PyArrow 转换为 pandas 结构时,它返回一个包含多行的 pd.Series ,每行都包…
是否可以将行追加到现有的 Arrow (PyArrow) 表中?
我知道“许多 Arrow 对象是不可变的:一旦构造,它们的逻辑属性就不能再改变”(文档)。在 Arrow 创建者之一的这篇博文中,据说 Arrow C++ 中的表列…
使用基于文件的收集时不支持 arrow,而从 pandas 转换为 Spark 时,反之亦然
我正在尝试使用 arrow enabling spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true"), but getting following error /databricks/s…
有没有办法控制 Apache Arrow 批量大小?
我想了解是否有一种机制来控制从服务器发送到客户端的批量大小。 我已经从 Github repo 实现了 python 服务器一个基本的 F# 客户端。 作为测试,我添…
尝试在 Python 笔记本中将地理数据框上传到 BigQuery 时遇到 ArrowTypeError:输入对象不是 NumPy 数组
我正在使用 Python 笔记本中的函数尝试将地理数据框上传到 BigQuery 表中: def geopandas_to_gbq(geodataframe, dataset_name, table_name, replace_…
箭头中表和数据集 API 之间的差异
从文档中,我了解到 arrow 提供了 datasets API 来处理比内存更大的数据。两者都具有自动谓词/投影下推功能(这使得它处理的数据无论如何都大于内存中…
使用 pandas 和 parquet 的效率
人们谈论了很多关于使用 镶木地板和熊猫。我正在努力了解与 pandas 一起使用时我们是否可以利用 parquet 文件的全部功能。例如,假设我有一个大 parqu…
用于字符串计算的 Bigquery 或 Pyarrow。有公布的基准吗?
我在 BigQuery 上有一些数据集,它们最初是 Json 字符串......架构是 但详细信息隐藏在该字符串中作为 Json 字典,例如: 2022-01-01 10:11:12.123 UT…
pyarrow read_csv - 如何用空值填充尾随可选列
我找不到使用 pyarrow.csv.read_csv 的选项或解决方法,并且还有许多其他原因导致使用 pandas 对我们不起作用。 我们有 csv 文件,其最后一列实际上是…
将 DataFrame 加载到 BigQuery 表时出错(pyarrow.lib.ArrowTypeError:类型为 的对象无法转换为 int)
我在 GCS 中存储了一个 CSV 文件,我想将其加载到 BigQuery 表中。但我需要先做一些预处理,所以我将其加载到 DataFrame,然后加载到 BigQuery 表 imp…