如何在 Pyspark 中以 parquet 格式编写 NullType 字段?
我正在读取 json 文件并通过 Spark 推断架构。其中一个字段是 arr: [] ,因此当我尝试将此 json 对象写入 parquet 格式时,它会引发错误: 遇到错误:…
为什么 Spark 读取的数据比我期望它使用读取模式读取的数据多?
在我的 Spark 工作中,我正在读取一张包含 30 多列的巨大表格(镶木地板)。为了限制读取的数据大小,我指定仅包含一列的架构(我只需要这一列)。不…
减少镶木地板文件数量的最佳方法
我有大约一百万个非常小的 parquet 文件(~ 14 KB),我想将它们合并到适合 HDFS 大小的文件(128 MB)。我想在 AWS 上执行此操作。 我的想法是: spa…
将文件系统中的 Parquet 文件读取到本地 SQL Server 表
有大量有关从 Azure blob 存储的 parquet 文件获取数据到本地 MSSQL 实例的文档。 例如 https://www.c-sharpcorner.com/article/external-tables-in-s…
无法将镶木地板文件读入考拉数据帧
我正在努力在我的项目中用 Koalas API 替换 pandas API。 我正在尝试从某个位置读取镶木地板文件,但出现以下错误。 import databricks.koalas as ks …
阿帕奇箭头 c++ ParquetFileWriter 页脚和关闭问题
我尝试让我的程序通过 apache arrow 的 StreamWriter 以 parquet 格式写出数据流。但输出文件没有元数据页脚。当尝试使用 python pandas 读取镶木地板…
ParquetDataset 不从过滤器中获取分区
我有一个存储在 s3 上的镶木地板数据集,我想从 if 查询特定行。我正在使用 pyarrow 来做这件事。 我的 s3 数据集使用配置单元分区(客户端=,年份= .…
AWS Glue JSON 到 Parquet 的转换
我正在尝试使用 AWS Glue 将 JSON 文件转换为 Parquet,其中包含如下格式的数据: [ { "id": 1, "message": "test message of event 1" }, { "id": 2,…
将 dask 数据帧存储在 parquet 中时,map_partitions 运行两次并计算记录数
我有一个 dask 进程,在每个数据帧分区上运行一个函数。我让 to_parquet 来做 运行函数的compute()。 但我还需要知道 parquet 表中的记录数。为此,我…
parquet_cpp StreamWriter 未将任何内容写入文件
大家好,我正在使用 parquet_cpp 的 StreamWriter,但输出文件不为空。甚至连文件头都没有写,因为该文件是一个 4 字节的文件。 std::shared_ptr outf…
在 python 中使用 parquete 时 chunk_size 的替代是什么
您好,之前我在数据帧中使用了 .csv 文件,但由于一些问题,我选择使用镶木地板文件,我收到“read_table() 得到了意外的关键字参数‘块’”错误。 我…
在 Azure 中读取 Parquet 文件时无法访问 org.apache.parquet.io.InputFile 问题
我正在尝试在 Azure 中读取 Parquet 文件而不下载它。 下面是我的代码: public static void readParquetFile(String containerName) throws IOExcept…
强制 Glue Crawler 创建单独的表
我不断地将 parquet 数据集添加到结构如下的 S3 文件夹中: s3:::my-bucket/public/data/set1 s3:::my-bucket/public/data/set2 s3:::my-bucket/publi…
如何解决镶木地板文件上的无效列名在 PySpark 中读取自身的问题
我设置了一个独立的 Spark 和一个独立的 HDFS。 我安装了 pyspark 并能够创建 Spark 会话。 我将一个镶木地板文件上传到 HDFS 下 /data : hdfs://loc…