第 2 页 - parquet - 文江博客

投稿关注

parquet

文章 0 浏览 2

将AWS配置文件与FS S3Filesystem一起使用

使用Apache Pyarrow时尝试使用特定的AWS配置文件。 s3filesystem时，没有选项可以传递配置名称。该文档显示使用Pyarrow fs [https://arrow.apache.or…

难忘№最初的完美 2025-02-09 20:55:17 2 0

pyspark读取镶木木材文件错误 - 非法镶木类型：INT64（TIMESTAMP（NANOS，true））

我使用Pyspark函数读取Parquet文件 sqlcontext.read.parquet 。这些文件包含时间戳列。由于Pyspark在编写纳秒时间戳方面存在问题，因此我使用Pandas编…

倒数 2025-02-09 19:45:48 1 0

pyspark to_timestamp（）处理格式的miliseconds sss

我的数据扭曲了，我在这里使用以下功能。 to_timestamp("col","yyyy-MM-dd'T'hh:mm:ss.SSS'Z'") 数据： time | OUTPUT | IDEAL 2022-06-16T07:01:25.…

血之狂魔 2025-02-09 16:04:57 3 0

有什么方法可以使用log4j直接以镶木格式记录文件

我需要使用log4j直接以镶木格式记录文件，以获取某些分析要求。有什么方法可以直接做到这一点？…

无可置疑 2025-02-09 15:40:07 1 0

使用压实式块状格式

由于Apache Flink版本1.15，您可以使用压实功能将几个文件合并到一个文件中。我们如何使用散装parquet格式的压实？ RecordWiseFileCompactor.Reader…

倒数 2025-02-09 14:07:00 2 0

在GO中写入Parquet时，如何处理NAN值？

我试图在Go中写入镶木木文件。写入此文件时，我可以获得 nan 值。由于 nan 尚未在原始类型中或逻辑类型中定义，因此如何在GO中处理此值？现有的模式是…

寒冷纷飞旳雪 2025-02-09 13:21:04 2 0

我可以为一个新文件获取hive_bad_data，但我可以找到与以前的文件的区别

我将熊猫的数据帧文件保存为S3中的镶木件文件。添加了最后一个文件后，它引起了此错误： hive_bad_data：parquet file s3：// **/resuct_2022-06-16.g…

孤寂小茶 2025-02-09 13:20:29 2 0

计算镶木中的行数

您知道在Scala中计算Parquet中的行数的任何方法吗？有hadoop库吗？还是镶木库？我想避免火花。我的意思是： number_rows（“ hdfs：//// tmp/parquet…

箹锭⒈辈孓 2025-02-09 11:05:06 3 0

蜂巢tblproperties等于pyspark中的parquet文件

我正在将HQL脚本转换为Pyspark。 hql代码： show tblproperties tblname（'transient_lastddltime'）我想要parquet文件的“ transient_lastddltime”…

等风来 2025-02-09 09:06:55 2 0

如何将oracledB表转换为带有Python的镶木quet文件

我正在尝试使用Python将OracleDB转换为Parquet文件。我是大数据的新手，以前从未与Parquet合作过。到目前为止，我已经成功连接到数据库并使用CX_oracl…

自由如风 2025-02-09 08:22:58 1 0

如何将.parquet文件从本地机器上传到Azure存储数据湖Gen2？

我在本地计算机中有一组.parquet文件，这些文件正在尝试上传到Data Lake Gen2中的容器。我不能执行以下操作： def upload_file_to_directory(): try:…

魄砕の薆 2025-02-09 01:24:01 2 0

为什么dask的map_partition函数比在分区上循环更多的内存？

我有一个由车辆ID索引并由时间戳排序的车辆的位置数据文件。我想读取镶木木文件，对每个分区（而不是聚合）进行一些计算，然后将输出直接写入相似大小…

野の 2025-02-08 22:38:14 2 0

为什么Parquet文件在Pyspark中生成多个部分？

经过一项广泛的研究，我认为 parquet是一种面向列的数据文件格式，旨在有效的数据存储和检索。它提供有效的数据压缩和编码方案具有增强性能，以处理大…

套路撩心 2025-02-08 18:19:46 0 0

Deltalake：替换在日期格式的地方不工作

我的用例是我想在日期分区。在不同的日期，将附加行，但是如果代码在同一日期重新运行，则应在网上查看后覆盖，似乎可以使用Deltalake的替换Whather …

一桥轻雨一伞开 2025-02-08 17:50:08 2 0

如何使用Java，Apache Arrow和Apache Parquet获取有效的数据摄入解决方案

我正在为一个数据湖解决 IoT框架的解决方案，该解决方案对几十个传感器进行了44KHz数据采集（〜990.000度/秒）。我希望使用Java 11+，Apache Arrow和…

◇流星雨 2025-02-08 10:35:26 2 0

共 9 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客