parquet

parquet

文章 0 浏览 2

如何从parquet文件中删除__null_dask_index?

我正在使用 dask 为 parquet 文件编写DF: df.to_parquet(file, compression='snappy', write_metadata_file=False,\ engine='pyarrow', index=None) …

魔法唧唧 2025-02-13 19:03:47 0 0

在Pyarrow中分区的镶木木材的情况下,推断正确的模式

我有一个很大的分区组合,需要访问将其全部加载或过滤。由于此错误 ARRONNOTIMPLEMENTERROR:使用函数Cast_Null ,我无法加载整个文件。来自这个问题…

夜声 2025-02-13 15:30:00 1 0

是否可以使用Hadoop API将大型Parquet文件分为小文件?

我们的大小尺寸很大,约为100GB。 是否可以使用Hadoop API将文件分为较小的文件。 我们不使用火花,因此无法使用Spark API拆分。 我尝试使用Hadoop AP…

一口甜 2025-02-13 06:23:12 1 0

“熊猫元数据”的目的在Parquet文件中

如果将PANDAS DataFrame写入Parquet文件(使用 .TO_PARQUET(..)方法),它将在Parquet页脚中产生一堆元数据。这是在pandas site上记录了。元数据包…

剧终人散尽 2025-02-13 04:52:35 0 0

当阅读到SPARK 3.3.0时

我从CSV文件中读取数据,并提供手工制作的架构: new StructType(new StructField[] { new StructField("id", LongType, false, Metadata.empty(), ne…

今天小雨转甜 2025-02-13 03:47:43 0 0

在写入功能上使用分区时,为什么木木尺寸会增加?

当我 df.partitionBy('column1', 'column2') 以镶木格式写入pyspark dataframe时使用pyspark dataframe时,我的parquet(约2600万行,〜2000列的大小…

屋顶上的小猫咪 2025-02-12 20:26:42 1 0

在dask中读取木木quet文件返回空框架

我正在尝试复制 this dataShader+parquet+parquet+dask+dask 用自己的数据做类似的事情。 这是git代码。 复制的步骤包括运行 jupyter Notebook 为了转…

鸵鸟症 2025-02-12 17:48:26 0 0

如何读取python中的data.parquet.gz文件?

如何读取文件 data.parquet.gz 并将其转换为PANDAS数据框架? 下面的代码给出错误: 无法打开镶木点输入源'':镶木魔术字节 在页脚中找不到。该文件已…

鹿童谣 2025-02-12 13:23:25 0 0

从sftp服务器读取镶木木datei到r

我正在尝试从SFTP服务器读取镶木quet文件。或者更确切地说,我试图在不同的文件夹的不同时间读取其中的许多内容,因此我想自动化它^^。 经过大量谷歌…

っ〆星空下的拥抱 2025-02-11 21:09:22 2 0

在Pyspark中阅读划分的镶木记录

我有一个由日期字段(yyyy-mm-dd)分区的镶木quet文件。 如何在Pyspark中有效地读取文件中的(当前日期1天)记录 - 请建议。 PS:我不想读取整个文件…

明月夜 2025-02-11 19:27:06 1 0

将数据框架存储为镶木木,并在一列中使用混合数据类型(时间戳和字符串)

我想将大熊猫的数据框架存储为镶木素文件。 但是我得到了这个错误: pyarrow.lib.arrowtypeerror :( 转换为int”,'转换失败的columt 对象') 列具…

浴红衣 2025-02-11 17:49:10 2 0

pyspark-将所有文件拉到基于filemask的数据框中

这是我前往Python的第一天(第0天是正确的PITA)。 我正在使用Azure Databricks(Python/Pyspark)和ADLS Gen2存储容器。 在我的容器中,我具有以下分…

一页 2025-02-11 06:28:23 0 0

有没有一种方法可以向后穿过DASK数据框架?

我想 read_parquet ,但要从您开始的位置向后读取(假设一个排序索引)。我不想将整个镶木读成记忆,因为这打败了使用它的全部点。有一个不错的方法吗…

绳情 2025-02-10 03:23:43 1 0

如何使用可以在AWS Athena中阅读的熊猫来编写镶木quet文件?

我有一个简单的数据框架,我想转换为镶木quet文件: out_buffer = BytesIO() input_datafame.to_parquet(out_buffer, index=False, compression="gzip…

聆听风音 2025-02-09 22:19:32 2 0

我如何使用Java I' ve使用df.write()。parquet但会有以下错误?

package com.evampsaanga.imran.testing; import org.apache.spark.SparkConf; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.R…

浪推晚风 2025-02-09 21:51:05 1 0
更多

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文