第 4 页 - pyarrow - 文江博客

投稿关注

pyarrow

文章 0 浏览 1

使用 pyarrow 读取 CSV 文件时，如何为所有列指定 dtype？

我想用 pyarrow 读取一个大的 CSV 文件。我所有的列都是 float64 的。但 pyarrow 似乎正在推断 int64。如何为所有列指定数据类型？ import gcsfs imp…

沒落の蓅哖 2025-01-15 18:30:42 2 0

如何使用 pyarrow.csv.read_csv 从文件系统读取文件？

我想用 pyarrow 读取 google 存储桶中的单个 CSV 文件。我该怎么做？我可以使用 gcsfs 创建一个 FileSystem 对象，但我没有找到将其提供给 pyarrow.c…

狂之美人 2025-01-15 05:03:21 3 0

ParquetDataset 不从过滤器中获取分区

我有一个存储在 s3 上的镶木地板数据集，我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。我的 s3 数据集使用配置单元分区（客户端=，年份= .…

夜声 2025-01-14 23:50:28 2 0

是否可以将 Spark 工作线程上的数据直接加载到 Apache Arrow 内存格式中，而无需先将其加载到 Spark 的内存格式中？

我们有一个用例，用于进行大量向量乘法并对结果求和，这样输入数据通常无法放入单个主机的 RAM 中，即使使用 0.5 TB RAM EC2 实例（拟合 OLS 回归模型…

苄①跕圉湢 2025-01-13 11:05:34 2 0

`RecordBatch` 能做什么而 `StructArray` 不能？

在 Arrow 中存在的不同类型的数组中，StructArray 就是其中之一。当使用 PyArrow 转换为 pandas 结构时，它返回一个包含多行的 pd.Series ，每行都包…

木有鱼丸 2025-01-13 07:12:17 4 0

是否可以将行追加到现有的 Arrow (PyArrow) 表中？

我知道“许多 Arrow 对象是不可变的：一旦构造，它们的逻辑属性就不能再改变”（文档）。在 Arrow 创建者之一的这篇博文中，据说 Arrow C++ 中的表列…

衣神在巴黎 2025-01-13 01:38:59 3 0

使用基于文件的收集时不支持 arrow，而从 pandas 转换为 Spark 时，反之亦然

我正在尝试使用 arrow enabling spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true"), but getting following error /databricks/s…

笑咖 2025-01-12 21:59:58 3 0

有没有办法控制 Apache Arrow 批量大小？

我想了解是否有一种机制来控制从服务器发送到客户端的批量大小。我已经从 Github repo 实现了 python 服务器一个基本的 F# 客户端。作为测试，我添…

甜尕妞 2025-01-12 18:22:51 5 0

尝试在 Python 笔记本中将地理数据框上传到 BigQuery 时遇到 ArrowTypeError：输入对象不是 NumPy 数组

我正在使用 Python 笔记本中的函数尝试将地理数据框上传到 BigQuery 表中： def geopandas_to_gbq(geodataframe, dataset_name, table_name, replace_…

耶耶耶 2025-01-12 15:45:03 3 0

箭头中表和数据集 API 之间的差异

从文档中，我了解到 arrow 提供了 datasets API 来处理比内存更大的数据。两者都具有自动谓词/投影下推功能（这使得它处理的数据无论如何都大于内存中…

晨敛清荷 2025-01-12 12:47:22 3 0

使用 pandas 和 parquet 的效率

人们谈论了很多关于使用镶木地板和熊猫。我正在努力了解与 pandas 一起使用时我们是否可以利用 parquet 文件的全部功能。例如，假设我有一个大 parqu…

心如荒岛 2025-01-11 12:29:42 2 0

用于字符串计算的 Bigquery 或 Pyarrow。有公布的基准吗？

我在 BigQuery 上有一些数据集，它们最初是 Json 字符串......架构是但详细信息隐藏在该字符串中作为 Json 字典，例如： 2022-01-01 10:11:12.123 UT…

久夏青 2025-01-10 22:26:16 1 0

pyarrow read_csv - 如何用空值填充尾随可选列

我找不到使用 pyarrow.csv.read_csv 的选项或解决方法，并且还有许多其他原因导致使用 pandas 对我们不起作用。我们有 csv 文件，其最后一列实际上是…

梅窗月明清似水 2025-01-09 16:30:03 4 0

将 DataFrame 加载到 BigQuery 表时出错（pyarrow.lib.ArrowTypeError：类型为的对象无法转换为 int）

我在 GCS 中存储了一个 CSV 文件，我想将其加载到 BigQuery 表中。但我需要先做一些预处理，所以我将其加载到 DataFrame，然后加载到 BigQuery 表 imp…

毁梦 2025-01-08 23:39:49 2 0

共 4 页
上一页
1
2
3
4

关注

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

pyarrow

使用 pyarrow 读取 CSV 文件时，如何为所有列指定 dtype？

如何使用 pyarrow.csv.read_csv 从文件系统读取文件？

ParquetDataset 不从过滤器中获取分区

是否可以将 Spark 工作线程上的数据直接加载到 Apache Arrow 内存格式中，而无需先将其加载到 Spark 的内存格式中？

`RecordBatch` 能做什么而 `StructArray` 不能？

是否可以将行追加到现有的 Arrow (PyArrow) 表中？

使用基于文件的收集时不支持 arrow，而从 pandas 转换为 Spark 时，反之亦然

有没有办法控制 Apache Arrow 批量大小？

尝试在 Python 笔记本中将地理数据框上传到 BigQuery 时遇到 ArrowTypeError：输入对象不是 NumPy 数组

箭头中表和数据集 API 之间的差异

使用 pandas 和 parquet 的效率

用于字符串计算的 Bigquery 或 Pyarrow。有公布的基准吗？

pyarrow read_csv - 如何用空值填充尾随可选列

将 DataFrame 加载到 BigQuery 表时出错（pyarrow.lib.ArrowTypeError：类型为的对象无法转换为 int）

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接