第 5 页 - parquet - 文江博客

parquet

文章 0 浏览 2

将Avro转换为Azure的镶木

我每天在Azure Blob帐户中创建数百个AVRO文件。这些AVRO文件包含带有不同模式的JSON对象。每个文件大小范围在100kb至1 MB之间。我需要将它们转换为镶…

微凉 2025-01-31 03:55:16 3 0

阅读木薯片到熊猫filenotfounderror

我的代码如下，运行良好。数据 April_data = sc.read.parquet('somepath/data.parquet') type(April_data) pyspark.sql.dataframe.DataFrame 为火花 …

混浊又暗下来 2025-01-30 14:37:30 2 0

如何使用Arrow/Parquet C＆＃x2B;＆＃x2B;图书馆？

我需要在GCS上访问镶木木quet格式化数据。我们正在使用适用于Apache Arrow和Parquet的C ++库。使用Parquet C ++库，对本地磁盘的阅读/写作相对简单。…

陈年往事 2025-01-30 08:34:30 3 0

将数据从多个镶木件文件检索到一个数据框中（Python）

首先，我要说这是我第一次使用镶木木文件。我有一个从S3存储桶中下载的2615个镶木文件的列表，我想将其读为一个数据框架。他们遵循相同的文件夹结构，…

柒七 2025-01-30 04:54:16 1 0

我们可以在蜂巢的镶板和外部表格中有不同的模式吗？

在Hive外部表和Parquet文件中，我们可以拥有多种数据类型，但列名称相同？例如，我可以在镶木quet文件中的所有字段中都有文本并将蜂巢表中的数据类型…

黯淡〆 2025-01-29 21:31:27 3 0

pandas to_parquet因GZIP而失败

我有一个有关pandas pd.to_parquet 功能的问题， compression ='gzip'选项。 GZIP实用程序未识别使用此选项创建的文件。我正在运行AWSS EC2实例，并…

后来的我们 2025-01-29 06:41:01 2 0

带有Apache Parquet，PostGressQL和PostGIS的空间数据库体系结构在本地裸机S3/Minio群集上

设计用于PB尺度的地理空间数据的存储架构；从头开始。创建 minio 群集将对象存储在S3桶中。要存储元数据，我正在考虑由PostGressQl管理的Apache Parqu…

遮了一弯 2025-01-28 13:33:19 4 0

我可以通过数据类型错误将DF转换为parquet

我正在尝试将PANDAS DataFrame转换为Parquet，但是我遇到了一个错误“删除字节，获得了'int'对象”，'conversion'conversion thing xxxxxxxx带有类型…

楠木可依 2025-01-28 05:13:49 5 0

pyspark抛出错误时，试图阅读镶木

我是Pyspark中的新手，试图通过Pyspark读取Parquet文件时，我会收到以下错误。我尝试了各种事情，例如重新安装JRE和JDK，更新环境变量。匹配winutils.…

贱人配狗天长地久 2025-01-28 03:55:53 2 0

org.apache.spark.shuffle.fetchfailedexception异常，Spark Job失败

我正在通过以下属性运行火花工作： "spark.driver.disk": "10g", "spark.driver.maxResultSize": "40g", "spark.driver.memory": "50g", "spark.drive…

泪冰清 2025-01-28 03:42:21 1 0

没有字典的压缩

我一直在测试使用木准文件的各种压缩算法，并在ZSTD上解决。据我了解，据我了解，除非明确指定一个ZSTD，否则使用自适应词典，因此它以空的字典开头…

桜花祭 2025-01-28 01:36:47 2 0

ParquetSharp的UTC调整

我正在尝试使用parquetSharp库（ https://github.com/github.com/g--reseach/parquetsharp ）从SQL Server数据库中编写一些Parquet文件。由于未将原…

神经大条 2025-01-26 14:01:41 2 0

将SQL Server表数据提取到Parquet文件

我正在尝试使用sqlalchemy，pandas和fastparquet模块将SQL Server表数据之一提取到镶木木文件格式，但最终出现了例外。感谢您的一些帮助，我正在用一…

撞了怀 2025-01-25 10:59:41 1 0

arrowinvalid：getfileinfo（）产生的路径在基本dir parquet之外

我在我的S3存储桶中存储了一个带有多个分区文件的镶木quet数据集。我想将其阅读到我的熊猫数据框架中，但是当我以前没有时会遇到此Arrowinvalid错误。…

缱倦旧时光 2025-01-25 08:00:50 1 0

如何在加载镶木quet文件时单独添加标头行？

在处理CSV文件时，我们可以说： df = pd.read_csv("test.csv", names=header_list, dtype=dtype_dict) 以上将在dtype_dict中以header_list和dtypes创…

白衬杉格子梦 2025-01-25 03:24:59 3 0

共 9 页
上一页
3
4
5
6
7
下一页

友情链接

文江博客