第 7 页 - parquet - 文江博客

投稿关注

parquet

文章 0 浏览 2

parquet4s未返回所有记录

我有一个简单的 Scala 应用程序，它使用 parquet4s 和 fs2 来读取一组分区记录（分布在目录中，由 Spark 作业生成）。当我运行该应用程序时，它仅返…

尝蛊 2025-01-19 18:24:54 5 0

调用 close() 后是否可以重新打开 ParquetWriter？

我目前正在使用 ParquetWriter 将AVRO记录写入Parquet文件。我可以使用 write（）和 collect（）根据需要编写和关闭文件的方法。现在，我有一个用例，…

森林很绿却致人迷途 2025-01-19 14:02:08 2 0

Parquet 将布尔值写入 null

我正在尝试将 parquet 格式的数据帧写入 hdfs。数据帧包含写入之前的所有值，但是当我将其写入磁盘时，它将布尔值 (true,false) 转换为 null。这是代…

烟沫凡尘 2025-01-19 08:02:31 3 0

当列包含集合时如何保存 pandas 数据框

当尝试保存其中一列包含集合的 pandas 数据框时（请参见下面的示例）， import pandas as pd df = pd.DataFrame({"col_set": [{"A", "B", "C"}, {"D",…

提笔落墨 2025-01-18 12:00:08 3 0

如何使用Spark结构化流（Python）生成一个小时长的镶木式文件？

我想每小时生成镶木地板文件，其中包含该小时内收到的所有信息，以便使用 Spark NLP 进行进一步处理。我有来自 Kafka 的流数据，当我 writeStream 时…

夜光 2025-01-18 05:14:49 4 0

是否可以将 Avro 序列化记录保存为 Parquet 格式？

我正在做一项以Avro格式序列的作业（使用 org.apache.spark.sql.avro.functions.to_avro ），然后以Parquet格式保存它们。但是我遇到了一些错误，说从…

楠木可依 2025-01-18 00:05:04 1 0

获取 DataFrameWriter 类的 parquet() 函数创建的文件名？

我正在使用pyspark代码来创建一个镶木素文件；具体来说，我使用的是dataFrameWriter类的parquet（）函数，而不是提供位置，而不是Parquet文件的名称。…

挥剑断情 2025-01-17 23:30:43 1 0

有没有办法捕获在 pandas/awswrangler 中使用通配符读取的多个镶木地板文件的输入文件名？

这是以下火花问题的确切python类似物：有没有方法可以捕获使用Spark中的通配符读取的多个Parquet文件的输入文件名？我正在使用（使用（熊猫和awswra…

云柯 2025-01-17 18:35:58 4 0

如何根据Spark的第三列的值选择两个嵌套的列之间？

我正在编写一个Spark应用程序，该应用程序在镶木quet数据中读取，该应用程序有效地包含三列：A，B和C B和C是具有相同基础模式的嵌套结构。类似的东西…

烟雨扶苏 2025-01-17 17:06:17 2 0

pyarrow write_dataset每个分区文件限制

假设我有一些数据位于现有数据集中，该数据集中没有列分区，但仍然有 200 多个文件。我想将该数据重写到配置单元分区中。数据集太大，无法将其全部打…

笨笨の傻瓜 2025-01-17 15:19:28 3 0

无法使用 pd.read_parquet 读取镶木地板

我刚刚更新了所有 conda 环境（pandas 1.4.1），并且面临 pandas read_parquet 函数的问题。 parquet_file = r'F:\Python Scripts\my_file.parquet' f…

情独悲 2025-01-17 13:35:44 0 0

使用箭头 write_dataset 函数附加镶木地板数据

我们使用 pyarrow 中的箭头数据集 write_dataset 函数将箭头数据以镶木地板格式写入 base_dir -“/tmp”。当base_dir 为空时，将创建part-0.parquet …

梦幻的心爱 2025-01-17 07:49:12 3 0

连接两个非常大的 dask 数据帧

我有许多大型数据集（大到比 RAM 还大），我想对其执行过滤、连接和连接。 Pandas 失败了，因为每个数据集大小（大约 25GB）都大于我的 RAM（16GB）。…

长梦不多时 2025-01-17 02:49:13 2 0

PySpark：MutableLong 无法转换为 MutableInt（数据帧中没有 long）

我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取 profiles 表并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误，…

沧桑㈠ 2025-01-17 01:57:02 2 0

如何在 Power BI 桌面中仅加载选定文件

Power BI Desktop 支持从 ADLS 加载单个 parquet 文件，现在，我们的进程会将多个 parquet 文件转储到一个文件夹中。该文件夹将包含包含其他格式（如…

赠我空喜 2025-01-16 14:23:35 2 0

共 9 页
上一页
5
6
7
8
9
下一页

友情链接

文江博客