第 3 页 - parquet - 文江博客

投稿关注

parquet

文章 0 浏览 2

Scala Spark：如何从Parquet文件中提取嵌套的列名并在其上添加前缀

这个想法是在数据框架中读取一个镶木quet文件。然后，从架构中提取所有列名和类型。如果我们有一个嵌套的列，我想在列名之前添加一个“前缀”。考虑…

过期以后 2025-02-08 03:54:18 0 0

为什么pandas.to_parquet需要这么多RAM？

除了使用512GB RAM（并且没有其他运行）的机器时，尝试保存Pandas DF（ DF.TO_PARQUET（...），如何使用512GB RAM（和其他任何东西）的机器））具有…

迷路的信 2025-02-08 03:50:41 1 0

可以在不读取所有内容的情况下读取Parquet文件的前一部分。

假设我们有一个具有一些列和行的镶木quet文件（或其他任何文件）p。文件p的列只有一个名为a的列，该列仅具有0或1。此外，行具有A列AS 0仅是该文件的1…

后来的我们 2025-02-07 23:44:23 1 0

是否可以在没有Hadoop的情况下将JSON转换为Parquet。

我需要能够制作功能并将JSON数组转换为Parquet，而无需安装Hadoop和Winutils的路径。它需要是一个非常移动的功能。我看到的唯一方法是使用Apache库，…

牵强ㄟ 2025-02-07 12:21:19 0 0

无法创建表：读取数据时错误，错误消息：输入文件不采用parquet格式

尝试加载*。parquet.gz 作为bigquery中的parquet文件，我会得到这个问题。 BigQuery不应该认识到这是一个压缩木桩文件吗？当我对其进行解压缩并以 .p…

梦途 2025-02-07 00:42:26 2 0

pyarrow/parquet-在批处理处理过程中将所有空列施放为字符串

我的代码有一个问题，我现在无法解决一段时间。我正在尝试将TAR.GZ压缩CSV文件转换为Parquet。当未压缩时，文件本身约为700MB。该处理是在内存限制系…

酒废 2025-02-07 00:12:32 1 0

为什么要更改我的数据的类型并不会减少我的镶木质量的大小？

我正在进行一些实验，以减少镶木木的大小。我想在每列中带有NAN类型的6列，我想将其导出到Parquet中。带有float64格式的列出口后的镶木quet文件的大…

与酒说心事 2025-02-06 15:49:38 2 0

pyspark：由于阶段失败而流产的工作：阶段86.0失败1次可能原因：Parquet列无法转换

我在将镶木quet文件从一个斑点编写到另一个斑点时面临一些问题。以下是我正在使用的代码。 df = spark.read.load(FilePath1, format="parquet", modif…

杯别 2025-02-06 12:18:43 1 0

将词典与熊猫/pyarrow一起使用天然钥匙

我正在使用Parquet文件格式存储以CSV格式收到的结构化版本的原始数据。为此，我使用熊猫执行数据框架操作，然后Pyarrow以镶木式格式保存数据框架。我…

憧憬巴黎街头的黎明 2025-02-06 10:02:39 1 0

Pyspark无法以JSON格式解析架构：未识别的令牌＆＃x27; arraytype＆＃x27;：很期待

这是一个后续问题，来自 POST 。 @abiratis感谢您的回答，我们正在尝试在胶水作业中实现相同的答案，唯一的更改是我们没有定义静态模式，因此我们创建…

没企图 2025-02-05 09:33:59 1 0

pyspark from_json失败了错误：不能以JSON格式解析架构：未识别的令牌＆＃x27; array＆＃x27;：warde tresgess（json string，number，array，array）

parquet_path =/tmp/test-parquet t2.json的内容是： { "id": "OK_good2", "some-array": [ {"array-field-1":"f1a","array-field-2":"f2a"}, {"arra…

你怎么这么可爱啊 2025-02-05 06:59:34 2 0

GreenPlum PXF-从外部表中选择 - 无效配置

我有一个greenplum数据库启动和运行，并在HDFS中存储在/user/hadoopuser/raw/的HDFS中。我安装并启动了PXF，并使用以下方式创建了外部表： create ex…

甜嗑 2025-02-04 19:17:37 5 0

用bean的选定属性编写镶木素输出

我有一个bean类 @Getter @Setter public class Employee { String id; String name; String depart; String address; final String pipe= "|"; @Overr…

韬韬不绝 2025-02-04 07:29:52 3 0

尝试使用Python将CSV文件转换为Parquet的记忆中

我正在尝试将一个非常大的CSV文件转换为Parquet。我尝试了以下方法： df1 = pd.read_csv('/kaggle/input/amex-default-prediction/train_data.csv') …

九公里浅绿 2025-02-04 06:58:57 2 0

使用Pyspark访问Azure Blob表（WASB）URL时获得身份验证错误

我正在尝试使用Pyspark访问Azure Blob表，但会出现身份验证错误。在这里，我正在通过SAS令牌（启用HTTP和HTTPS），但它仅与WASB（HTTPS）URL一起使用…

红焚 2025-02-04 05:20:00 2 0

共 9 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客