parquet

parquet

文章 0 浏览 2

parquet4s未返回所有记录

我有一个简单的 Scala 应用程序,它使用 parquet4s 和 fs2 来读取一组分区记录(分布在目录中,由 Spark 作业生成)。 当我运行该应用程序时,它仅返…

尝蛊 2025-01-19 18:24:54 5 0

调用 close() 后是否可以重新打开 ParquetWriter?

我目前正在使用 ParquetWriter 将AVRO记录写入Parquet文件。我可以使用 write()和 collect()根据需要编写和关闭文件的方法。现在,我有一个用例,…

森林很绿却致人迷途 2025-01-19 14:02:08 2 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值,但是当我将其写入磁盘时,它将布尔值 (true,false) 转换为 null。 这是代…

烟沫凡尘 2025-01-19 08:02:31 3 0

当列包含集合时如何保存 pandas 数据框

当尝试保存其中一列包含集合的 pandas 数据框时(请参见下面的示例), import pandas as pd df = pd.DataFrame({"col_set": [{"A", "B", "C"}, {"D",…

提笔落墨 2025-01-18 12:00:08 3 0

如何使用Spark结构化流(Python)生成一个小时长的镶木式文件?

我想每小时生成镶木地板文件,其中包含该小时内收到的所有信息,以便使用 Spark NLP 进行进一步处理。 我有来自 Kafka 的流数据,当我 writeStream 时…

夜光 2025-01-18 05:14:49 4 0

是否可以将 Avro 序列化记录保存为 Parquet 格式?

我正在做一项以Avro格式序列的作业(使用 org.apache.spark.sql.avro.functions.to_avro ),然后以Parquet格式保存它们。但是我遇到了一些错误,说从…

楠木可依 2025-01-18 00:05:04 1 0

获取 DataFrameWriter 类的 parquet() 函数创建的文件名?

我正在使用pyspark代码来创建一个镶木素文件;具体来说,我使用的是dataFrameWriter类的parquet()函数,而不是提供位置,而不是Parquet文件的名称。…

挥剑断情 2025-01-17 23:30:43 1 0

有没有办法捕获在 pandas/awswrangler 中使用通配符读取的多个镶木地板文件的输入文件名?

这是以下火花问题的确切python类似物: 有没有方法可以捕获使用Spark中的通配符读取的多个Parquet文件的输入文件名? 我正在使用(使用(熊猫和awswra…

云柯 2025-01-17 18:35:58 4 0

如何根据Spark的第三列的值选择两个嵌套的列之间?

我正在编写一个Spark应用程序,该应用程序在镶木quet数据中读取,该应用程序有效地包含三列:A,B和C B和C是具有相同基础模式的嵌套结构。类似的东西…

烟雨扶苏 2025-01-17 17:06:17 2 0

pyarrow write_dataset每个分区文件限制

假设我有一些数据位于现有数据集中,该数据集中没有列分区,但仍然有 200 多个文件。我想将该数据重写到配置单元分区中。数据集太大,无法将其全部打…

笨笨の傻瓜 2025-01-17 15:19:28 3 0

无法使用 pd.read_parquet 读取镶木地板

我刚刚更新了所有 conda 环境(pandas 1.4.1),并且面临 pandas read_parquet 函数的问题。 parquet_file = r'F:\Python Scripts\my_file.parquet' f…

情独悲 2025-01-17 13:35:44 0 0

使用箭头 write_dataset 函数附加镶木地板数据

我们使用 pyarrow 中的箭头数据集 write_dataset 函数将箭头数据以镶木地板格式写入 base_dir -“/tmp”。当base_dir 为空时,将创建part-0.parquet …

梦幻的心爱 2025-01-17 07:49:12 3 0

连接两个非常大的 dask 数据帧

我有许多大型数据集(大到比 RAM 还大),我想对其执行过滤、连接和连接。 Pandas 失败了,因为每个数据集大小(大约 25GB)都大于我的 RAM(16GB)。…

长梦不多时 2025-01-17 02:49:13 2 0

PySpark:MutableLong 无法转换为 MutableInt(数据帧中没有 long)

我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取 profiles 表并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误,…

沧桑㈠ 2025-01-17 01:57:02 2 0

如何在 Power BI 桌面中仅加载选定文件

Power BI Desktop 支持从 ADLS 加载单个 parquet 文件, 现在,我们的进程会将多个 parquet 文件转储到一个文件夹中。该文件夹将包含包含其他格式(如…

赠我空喜 2025-01-16 14:23:35 2 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文