parquet

parquet

文章 0 浏览 2

如何在 Pyspark 中以 parquet 格式编写 NullType 字段?

我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ,因此当我尝试将此 json 对象写入 parquet 格式时,它会引发错误: 遇到错误:…

猫烠⑼条掵仅有一顆心 2025-01-16 14:13:22 1 0

为什么 Spark 读取的数据比我期望它使用读取模式读取的数据多?

在我的 Spark 工作中,我正在读取一张包含 30 多列的巨大表格(镶木地板)。为了限制读取的数据大小,我指定仅包含一列的架构(我只需要这一列)。不…

江湖彼岸 2025-01-16 04:51:51 1 0

减少镶木地板文件数量的最佳方法

我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…

凉宸 2025-01-15 18:12:09 2 0

将文件系统中的 Parquet 文件读取到本地 SQL Server 表

有大量有关从 Azure blob 存储的 parquet 文件获取数据到本地 MSSQL 实例的文档。 例如 https://www.c-sharpcorner.com/article/external-tables-in-s…

失与倦" 2025-01-15 17:26:24 1 0

无法将镶木地板文件读入考拉数据帧

我正在努力在我的项目中用 Koalas API 替换 pandas API。 我正在尝试从某个位置读取镶木地板文件,但出现以下错误。 import databricks.koalas as ks …

短叹 2025-01-15 08:46:30 1 0

阿帕奇箭头 c++ ParquetFileWriter 页脚和关闭问题

我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用 python pandas 读取镶木地板…

怕倦 2025-01-15 02:30:21 3 0

ParquetDataset 不从过滤器中获取分区

我有一个存储在 s3 上的镶木地板数据集,我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。 我的 s3 数据集使用配置单元分区(客户端=,年份= .…

夜声 2025-01-14 23:50:28 2 0

AWS Glue JSON 到 Parquet 的转换

我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet,其中包含如下格式的数据: [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…

梦一生花开无言 2025-01-14 21:49:11 2 0

将 dask 数据帧存储在 parquet 中时,map_partitions 运行两次并计算记录数

我有一个 dask 进程,在每个数据帧分区上运行一个函数。我让 to_parquet 来做 运行函数的compute()。 但我还需要知道 parquet 表中的记录数。为此,我…

孤凫 2025-01-14 21:12:02 6 0

parquet_cpp StreamWriter 未将任何内容写入文件

大家好,我正在使用 parquet_cpp 的 StreamWriter,但输出文件不为空。甚至连文件头都没有写,因为该文件是一个 4 字节的文件。 std::shared_ptr outf…

近箐 2025-01-14 12:00:03 1 0

在 python 中使用 parquete 时 chunk_size 的替代是什么

您好,之前我在数据帧中使用了 .csv 文件,但由于一些问题,我选择使用镶木地板文件,我收到“read_table() 得到了意外的关键字参数‘块’”错误。 我…

与君绝 2025-01-14 10:34:44 3 0

在 Azure 中读取 Parquet 文件时无法访问 org.apache.parquet.io.InputFile 问题

我正在尝试在 Azure 中读取 Parquet 文件而不下载它。 下面是我的代码: public static void readParquetFile(String containerName) throws IOExcept…

愛上了 2025-01-14 04:13:53 2 0

强制 Glue Crawler 创建单独的表

我不断地将 parquet 数据集添加到结构如下的 S3 文件夹中: s3:::my-bucket/public/data/set1 s3:::my-bucket/public/data/set2 s3:::my-bucket/publi…

渡你暖光 2025-01-14 02:29:18 4 0

Python - 多处理非常大的镶木地板文件

我偶然发现了类似的问题,但它们都使用 .csv 或 .txt 文件,解决方案是逐行或分块读取数据。我不知道镶木地板文件是否可以这样做,因为它们被设计为按…

抱猫软卧 2025-01-13 19:47:08 2 0

如何解决镶木地板文件上的无效列名在 PySpark 中读取自身的问题

我设置了一个独立的 Spark 和一个独立的 HDFS。 我安装了 pyspark 并能够创建 Spark 会话。 我将一个镶木地板文件上传到 HDFS 下 /data : hdfs://loc…

抚你发端 2025-01-13 04:23:17 1 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文