parquet

文章 0 浏览 2

如何从parquet文件中删除__null_dask_index？

我正在使用 dask 为 parquet 文件编写DF： df.to_parquet(file, compression='snappy', write_metadata_file=False,\ engine='pyarrow', index=None) …

魔法唧唧 2025-02-13 19:03:47 0 0

在Pyarrow中分区的镶木木材的情况下，推断正确的模式

我有一个很大的分区组合，需要访问将其全部加载或过滤。由于此错误 ARRONNOTIMPLEMENTERROR：使用函数Cast_Null ，我无法加载整个文件。来自这个问题…

夜声 2025-02-13 15:30:00 1 0

是否可以使用Hadoop API将大型Parquet文件分为小文件？

我们的大小尺寸很大，约为100GB。是否可以使用Hadoop API将文件分为较小的文件。我们不使用火花，因此无法使用Spark API拆分。我尝试使用Hadoop AP…

一口甜 2025-02-13 06:23:12 1 0

“熊猫元数据”的目的在Parquet文件中

如果将PANDAS DataFrame写入Parquet文件（使用 .TO_PARQUET（..）方法），它将在Parquet页脚中产生一堆元数据。这是在pandas site上记录了。元数据包…

剧终人散尽 2025-02-13 04:52:35 0 0

当阅读到SPARK 3.3.0时

我从CSV文件中读取数据，并提供手工制作的架构： new StructType(new StructField[] { new StructField("id", LongType, false, Metadata.empty(), ne…

今天小雨转甜 2025-02-13 03:47:43 0 0

在写入功能上使用分区时，为什么木木尺寸会增加？

当我 df.partitionBy('column1', 'column2') 以镶木格式写入pyspark dataframe时使用pyspark dataframe时，我的parquet（约2600万行，〜2000列的大小…

屋顶上的小猫咪 2025-02-12 20:26:42 1 0

在dask中读取木木quet文件返回空框架

我正在尝试复制 this dataShader+parquet+parquet+dask+dask 用自己的数据做类似的事情。这是git代码。复制的步骤包括运行 jupyter Notebook 为了转…

鸵鸟症 2025-02-12 17:48:26 0 0

如何读取python中的data.parquet.gz文件？

如何读取文件 data.parquet.gz 并将其转换为PANDAS数据框架？下面的代码给出错误：无法打开镶木点输入源''：镶木魔术字节在页脚中找不到。该文件已…

鹿童谣 2025-02-12 13:23:25 0 0

从sftp服务器读取镶木木datei到r

我正在尝试从SFTP服务器读取镶木quet文件。或者更确切地说，我试图在不同的文件夹的不同时间读取其中的许多内容，因此我想自动化它^^。经过大量谷歌…

っ〆星空下的拥抱 2025-02-11 21:09:22 2 0

在Pyspark中阅读划分的镶木记录

我有一个由日期字段（yyyy-mm-dd）分区的镶木quet文件。如何在Pyspark中有效地读取文件中的（当前日期1天）记录 - 请建议。 PS：我不想读取整个文件…

明月夜 2025-02-11 19:27:06 1 0

将数据框架存储为镶木木，并在一列中使用混合数据类型（时间戳和字符串）

我想将大熊猫的数据框架存储为镶木素文件。但是我得到了这个错误： pyarrow.lib.arrowtypeerror ：（转换为int”，'转换失败的columt 对象'）列具…

浴红衣 2025-02-11 17:49:10 2 0

pyspark-将所有文件拉到基于filemask的数据框中

这是我前往Python的第一天（第0天是正确的PITA）。我正在使用Azure Databricks（Python/Pyspark）和ADLS Gen2存储容器。在我的容器中，我具有以下分…

一页 2025-02-11 06:28:23 0 0

有没有一种方法可以向后穿过DASK数据框架？

我想 read_parquet ，但要从您开始的位置向后读取（假设一个排序索引）。我不想将整个镶木读成记忆，因为这打败了使用它的全部点。有一个不错的方法吗…

绳情 2025-02-10 03:23:43 1 0

如何使用可以在AWS Athena中阅读的熊猫来编写镶木quet文件？

我有一个简单的数据框架，我想转换为镶木quet文件： out_buffer = BytesIO() input_datafame.to_parquet(out_buffer, index=False, compression="gzip…

聆听风音 2025-02-09 22:19:32 2 0

我如何使用Java I＆＃x27; ve使用df.write（）。parquet但会有以下错误？

package com.evampsaanga.imran.testing; import org.apache.spark.SparkConf; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.R…

浪推晚风 2025-02-09 21:51:05 1 0

共 9 页
1
2
3
4
5
下一页

友情链接

文江博客