pyarrow

文章 0 浏览 1

我如何确保在查询分区数据框时读取不必要的文件的dask？

例如，说我在目录树中有一个镶木quet数据集，hive style： dataset/field1=A/field2=X/data.parquet dataset/field1=A/field2=Y/data.parquet dataset…

蹲墙角沉默 2025-02-14 00:00:06 1 0

在Pyarrow中分区的镶木木材的情况下，推断正确的模式

我有一个很大的分区组合，需要访问将其全部加载或过滤。由于此错误 ARRONNOTIMPLEMENTERROR：使用函数Cast_Null ，我无法加载整个文件。来自这个问题…

夜声 2025-02-13 15:30:00 2 0

如何查询pyarrow桌姿势场

我有一张表，假设2列A（列表），b（list）和2行： A: ["X", "Y"], ["Y", "Z"] B: [1, 3], [5, 6] 我想实现 select *从表中select * select * yy = 5 …

月棠 2025-02-13 11:51:28 1 0

将数据框架存储为镶木木，并在一列中使用混合数据类型（时间戳和字符串）

我想将大熊猫的数据框架存储为镶木素文件。但是我得到了这个错误： pyarrow.lib.arrowtypeerror ：（转换为int”，'转换失败的columt 对象'）列具…

浴红衣 2025-02-11 17:49:10 3 0

将AWS配置文件与FS S3Filesystem一起使用

使用Apache Pyarrow时尝试使用特定的AWS配置文件。 s3filesystem时，没有选项可以传递配置名称。该文档显示使用Pyarrow fs [https://arrow.apache.or…

难忘№最初的完美 2025-02-09 20:55:17 2 0

为什么pandas.to_parquet需要这么多RAM？

除了使用512GB RAM（并且没有其他运行）的机器时，尝试保存Pandas DF（ DF.TO_PARQUET（...），如何使用512GB RAM（和其他任何东西）的机器））具有…

迷路的信 2025-02-08 03:50:41 2 0

pyarrow/parquet-在批处理处理过程中将所有空列施放为字符串

我的代码有一个问题，我现在无法解决一段时间。我正在尝试将TAR.GZ压缩CSV文件转换为Parquet。当未压缩时，文件本身约为700MB。该处理是在内存限制系…

酒废 2025-02-07 00:12:32 1 0

将词典与熊猫/pyarrow一起使用天然钥匙

我正在使用Parquet文件格式存储以CSV格式收到的结构化版本的原始数据。为此，我使用熊猫执行数据框架操作，然后Pyarrow以镶木式格式保存数据框架。我…

憧憬巴黎街头的黎明 2025-02-06 10:02:39 2 0

pypy3口译员Pyarrow的失败的建筑轮

我正在使用PYCHARM中的PYPY3作为解释器安装简化，并在此错误：Pyarrow 的失败构建轮eform 我尝试了与Pyarrow相关的网络上找到的所有解决方案，但似乎…

千鲤 2025-02-06 09:45:20 2 0

无法为简化安装构建PYARROW

我正在尝试在Raspberry Pi 4上的虚拟环境上安装命令PIP3安装，但是我会收到以下错误。你能帮我吗？ Building wheels for collected packages: pyarrow…

梦在夏天 2025-02-06 06:17:57 1 0

如何计算Pyarrow数组中的唯一值数量？

我有一个pyarrow int32 包含我从兽人文件中获得的18个块： import pyarrow.dataset import pyarrow.compute t = pyarrow.dataset.dataset("my/orc/fil…

浅听莫相离 2025-02-06 04:34:33 1 0

如何使Pyarrow CSV作者不添加围绕字符串的双引号

我正在将箭头表写入CSV。 import pyarrow.csv as csv csv.write_csv(table, 'myfile.csv', csv.WriteOptions(include_header=True,delimiter='|')) 但…

浪漫人生路 2025-02-03 12:38:27 2 0

如何将Pyarrow表转换为内存中CSV

我正在寻找一种将PYARROW表转换为内存中CSV的方法，以便我可以将CSV对象直接转移到数据库中。用 pyarrow.csv.write.write_write_csv.csv.csv（）可以…

反差帅 2025-02-03 12:21:50 4 0

熊猫：从外部数组中获得列中每个值的索引（数字位置）

我有一个固定值，带有数组： ['string1'，'string2'，'string3'] 和一个pandas datafrae： >>> pd.DataFrame({'column': ['string1', 'string1', 'str…

不寐倦长更 2025-02-03 06:34:56 2 0

批处理批处理将镶木转换为带有分类值的箭头：箭头IPC文件仅支持给定字段的单个非delta词典，跨越给定字段

我有一个大型镶木文件，它的架构中具有分类/字典值（ dictionary＆lt; values = string，indices = int32，ordered = 0＆gt; ），我正在尝试将parquet…

这个俗人 2025-02-03 03:33:04 5 0

共 4 页
1
2
3
4
下一页

友情链接

文江博客