第 8 页 - parquet - 文江博客

投稿关注

parquet

文章 0 浏览 2

如何在 Pyspark 中以 parquet 格式编写 NullType 字段？

我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ，因此当我尝试将此 json 对象写入 parquet 格式时，它会引发错误：遇到错误：…

猫烠⑼条掵仅有一顆心 2025-01-16 14:13:22 1 0

为什么 Spark 读取的数据比我期望它使用读取模式读取的数据多？

在我的 Spark 工作中，我正在读取一张包含 30 多列的巨大表格（镶木地板）。为了限制读取的数据大小，我指定仅包含一列的架构（我只需要这一列）。不…

江湖彼岸 2025-01-16 04:51:51 1 0

减少镶木地板文件数量的最佳方法

我有大约一百万个非常小的 parquet 文件（~ 14 KB），我想将它们合并到适合 HDFS 大小的文件（128 MB）。我想在 AWS 上执行此操作。我的想法是： spa…

凉宸 2025-01-15 18:12:09 2 0

将文件系统中的 Parquet 文件读取到本地 SQL Server 表

有大量有关从 Azure blob 存储的 parquet 文件获取数据到本地 MSSQL 实例的文档。例如 https://www.c-sharpcorner.com/article/external-tables-in-s…

失与倦＂ 2025-01-15 17:26:24 1 0

无法将镶木地板文件读入考拉数据帧

我正在努力在我的项目中用 Koalas API 替换 pandas API。我正在尝试从某个位置读取镶木地板文件，但出现以下错误。 import databricks.koalas as ks …

短叹 2025-01-15 08:46:30 1 0

阿帕奇箭头 c++ ParquetFileWriter 页脚和关闭问题

我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用 python pandas 读取镶木地板…

怕倦 2025-01-15 02:30:21 3 0

ParquetDataset 不从过滤器中获取分区

我有一个存储在 s3 上的镶木地板数据集，我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。我的 s3 数据集使用配置单元分区（客户端=，年份= .…

夜声 2025-01-14 23:50:28 2 0

AWS Glue JSON 到 Parquet 的转换

我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet，其中包含如下格式的数据： [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…

梦一生花开无言 2025-01-14 21:49:11 2 0

将 dask 数据帧存储在 parquet 中时，map_partitions 运行两次并计算记录数

我有一个 dask 进程，在每个数据帧分区上运行一个函数。我让 to_parquet 来做运行函数的compute()。但我还需要知道 parquet 表中的记录数。为此，我…

孤凫 2025-01-14 21:12:02 6 0

parquet_cpp StreamWriter 未将任何内容写入文件

大家好，我正在使用 parquet_cpp 的 StreamWriter，但输出文件不为空。甚至连文件头都没有写，因为该文件是一个 4 字节的文件。 std::shared_ptr outf…

近箐 2025-01-14 12:00:03 1 0

在 python 中使用 parquete 时 chunk_size 的替代是什么

您好，之前我在数据帧中使用了 .csv 文件，但由于一些问题，我选择使用镶木地板文件，我收到“read_table() 得到了意外的关键字参数‘块’”错误。我…

与君绝 2025-01-14 10:34:44 3 0

在 Azure 中读取 Parquet 文件时无法访问 org.apache.parquet.io.InputFile 问题

我正在尝试在 Azure 中读取 Parquet 文件而不下载它。下面是我的代码： public static void readParquetFile(String containerName) throws IOExcept…

愛上了 2025-01-14 04:13:53 2 0

强制 Glue Crawler 创建单独的表

我不断地将 parquet 数据集添加到结构如下的 S3 文件夹中： s3:::my-bucket/public/data/set1 s3:::my-bucket/public/data/set2 s3:::my-bucket/publi…

渡你暖光 2025-01-14 02:29:18 4 0

Python - 多处理非常大的镶木地板文件

我偶然发现了类似的问题，但它们都使用 .csv 或 .txt 文件，解决方案是逐行或分块读取数据。我不知道镶木地板文件是否可以这样做，因为它们被设计为按…

抱猫软卧 2025-01-13 19:47:08 2 0

如何解决镶木地板文件上的无效列名在 PySpark 中读取自身的问题

我设置了一个独立的 Spark 和一个独立的 HDFS。我安装了 pyspark 并能够创建 Spark 会话。我将一个镶木地板文件上传到 HDFS 下 /data ： hdfs://loc…

抚你发端 2025-01-13 04:23:17 1 0

共 9 页
上一页
5
6
7
8
9
下一页

友情链接

文江博客