箭头中表和数据集 API 之间的差异

发布于 2025-01-12 12:47:22 字数 358 浏览 3 评论 0原文

从文档中，我了解到 arrow 提供了 datasets API 来处理比内存更大的数据。两者都具有自动谓词/投影下推功能（这使得它处理的数据无论如何都大于内存中的数据，因为它只带来了所需的数据），并读取分区文件。 table API 附带了许多计算函数，但不适用于数据集。

但我试图了解使用数据集和表 API 之间的真正区别。 datasets 可以读取多个文件，而 table 则不能。但仅此而已？另外，如果没有太大差异，为什么它会上升为两个独立的实体，tables和datasets，或者将来，它们是否会合并为一个统一的元素？

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

暂无简介

文章

26 人气