当前位置：文江博客话题详情

是否可以将行追加到现有的 Arrow (PyArrow) 表中？

发布于 2025-01-13 01:38:59 字数 1154 浏览 3 评论 0原文

我知道“许多 Arrow 对象是不可变的：一旦构造，它们的逻辑属性就不能再改变”（文档）。在 Arrow 创建者之一的这篇博文中，据说

Arrow C++ 中的表列可以分块，因此附加到表是零复制操作，不需要重要的计算或内存分配。

但是，我无法在文档中找到如何将行追加到表中。 pyarrow.concat_tables(tables, Promotion=False) 做了类似的事情，但我的理解是它会生成一个新的 Table 对象，而不是向现有对象添加块。

我不确定这个操作是否完全可能/有意义（在这种情况下我想知道如何进行）或者是否没有（在这种情况下，pyarrow.concat_tables正是我需要）。

类似的问题：

In PyArrow, how to追加表的行到内存映射文件？专门询问内存映射文件。我一般询问任何 Table 对象。可能来自 read_csv 操作或手动构建。
使用 pyarrow 如何附加到 parquet 文件？谈论 Parquet 文件。见上文。
Pyarrow Write/Append Columns Arrow File 谈论列，但我谈论的是行。
https://github.com/apache/arrow/issues/3622 问同样的问题，但它没有令人满意的答案（在我看来）。

需要登录才能够评论，你可以免费注册一个本站的账号。

南风几经秋 2025-01-20 01:38:59

基本上，PyArrow/Arrow C++ 中的表实际上并不是数据本身，而是由指向数据的指针组成的容器。它的工作原理是：

Buffer 代表实际的、单一的分配。换句话说，缓冲区是连续的、句号的。它们可能是可变的或不可变的。
数组包含 0+ 个缓冲区，并向它们强加某种语义。（例如，整数数组或字符串数组。）数组是“连续的”，因为每个缓冲区都是连续的，并且从概念上讲，“列”不会跨多个缓冲区“拆分”。（这对于嵌套数组来说真的很模糊：从某种意义上说，结构数组确实将其数据分割到多个缓冲区中！我需要对此提出更好的措辞，并将其贡献给上游文档。但我希望我的意思这里相当清楚。）
ChunkedArray 包含 0+ 个数组。 ChunkedArray 在逻辑上不连续。它有点像数据块的链接列表。两个 ChunkedArray 可以“零复制”连接，即底层缓冲区不会被复制。
一个表包含 0+ 个分块数组。表是一种二维数据结构（包括列和行）。
RecordBatch 包含 0+ 个数组。 RecordBatch 也是一种 2D 数据结构。

因此，您可以通过仅复制指针来使用 pyarrow.concat_tables “零复制”连接两个表。但是您不能“零复制”连接两个 RecordBatch，因为您必须连接数组，然后必须将数据复制出缓冲区。

~没有更多了~