parquet

parquet

文章 0 浏览 2

如何使用Java将JSON转换为Apache Beam中的镶木

我正在尝试转换JSON数据 {"col1":"sample-val-1", "col2":1.0} {"col1":"sample-val-2", "col2":2.0} {"col1":"sample-val-3", "col2":3.0} {"col1":"…

像你 2025-01-24 19:31:00 4 0

Azure Databricks-使用spark.sql和union和subquies写入镶木quet文件

问题: 我正在尝试使用spark.sql写入parquet文件,但是我在拥有工会或子征服时会遇到问题。我知道有一些我似乎无法弄清楚的语法。 前任。 %python df …

潜移默化 2025-01-24 17:26:22 2 0

Apache Beam:如何使用更新的数据覆盖源镶木文件

我有一个用python编写的梁管道,该管道读取两个木板文件: state 和更新。管道将当前数据保存在状态文件中,读取更新文件,它将更新 state> State fil…

黑凤梨 2025-01-24 06:11:48 4 0

使用Apache Spark将大型200MB CSV文件转换为镶木文件

我正在尝试使用Apache Spark将CSV文件转换为Parquet文件,对于小型CSV,它运行良好,但是对于巨大的CSV IT工作,它继续进行,它永远不会停止,并且它…

梦魇绽荼蘼 2025-01-24 01:00:55 2 0

Pyarrow时间戳不断转换为1970

我正在尝试将带有所有其他数据的时间戳存储在我的数据框架中,这意味着将数据存储到磁盘中的时间,并将其存储在parquet文件中。通常,我只是将时间戳…

幸福还没到 2025-01-23 19:26:45 3 0

如何在使用Pyarrow编写镶木quet文件时提供镶木架模式

我有一个原始的输入CSV数据,其中所有字段均为字符串类型。我想将此CSV转换为镶木格式。但是,在转换为Parquet时,我想通过为数据提供自定义模式来编…

淡淡離愁欲言轉身 2025-01-23 08:04:57 2 0

在DuckDB中读取分区的镶木木材文件

背景: duckDB允许直接查询镶木点文件。例如con.execute(“ select * from'hierarchy.parquet') parquet允许通过列值对文件进行分区。当对镶木quet…

萌酱 2025-01-23 08:04:23 4 0

Azure Synapse,外部表或内部表的设计问题

我正在使用SQL池设计在Azure Synapse中的Dataware House,但我面临一些设计问题。 上下文:我的计划是使用Azure Data Lake Storage(ADLS)加载分区的…

破晓 2025-01-23 07:57:14 1 0

当用大熊猫重新打开木木木文件时,为什么内存使用量会增加?

我生成了8.481.288行和451列的熊猫数据框架,其中大多数列具有整数值。当我生成此数据框时,我的PC上的总内存消耗为(更少)的总内存的50%,但是如果…

远昼 2025-01-22 16:04:43 0 0

火花结构化的流式写作触发设置设置为一次录制的数据要比应有的要少得多

我有一个每小时运行的程序,它会收到流数据,并以镶木制格式以批量格式写入数据卡片中,每次运行时,以稍后处理另一个功能处理。 因此,我将Writestre…

執念 2025-01-22 15:45:11 3 0

使用Hive阅读时如何忽略空的镶木木材文件

我使用的是Hive 3.1.0,我的查询每小时都会从某些路径上读取一堆镶木件文件。我无法控制这些文件是如何生成的,因为这些文件是由某些外部过程创建的。…

鞋纸虽美,但不合脚ㄋ〞 2025-01-22 10:13:56 2 0

从HDFS阅读时,如何跳过木板列?

我们都知道Parquet是面向列的,因此我们只能获得所需的列并减少IO。 如果镶木quet文件存储在HDFS中,我们应该先下载整个文件,然后在本地应用列过滤器…

时光礼记 2025-01-22 07:58:34 0 0

不平衡数据框架的火花范围分区

我有一个带有下一个架构的数据框: provider_id: Int, quadkey18: String, data: Array[ComplexObject] 我需要保存由provider_id和quadkey5分区的数据…

月下凄凉 2025-01-21 06:52:09 1 0

转换后 PySpark parquet 文件覆盖

我试图在镶木地板文件中进行转换(合并两个表,或添加一列),然后保存它,同时遇到 FileNotFound 错误。 重现我的错误的代码片段如下: from pyspark…

笑看君怀她人 2025-01-20 04:50:06 2 0

使用 adf 中的复制活动 (polybase) 将 ADLS gen2 中的 parquet 文件复制到 Azure synapse 表时出现错误

我的来源是 ADLS gen2 中的镶木地板文件。所有 parquet 文件都是大小为 10-14 MB 的零件文件。总大小应约为 80 GB 接收器是 Azuresynapse 表。 复制方…

小嗲 2025-01-20 01:42:24 3 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文