带有Apache Parquet,PostGressQL和PostGIS的空间数据库体系结构在本地裸机S3/Minio群集上

发布于 2025-01-28 13:33:19 字数 1265 浏览 3 评论 0原文

设计用于PB尺度的地理空间数据的存储架构;从头开始。创建 minio 群集将对象存储在S3桶中。要存储元数据,我正在考虑由PostGressQl管理的Apache Parquet格式,该格式由PostGis扩展。 使用Parquet意味着将资源为postgressql FDW(外国数据包装器)-parquets3。 与“纯”后Ql相比,帕木木的主要优势毫无疑问:较高的查询速度,更高的压缩率和存储在S3中的能力,这对我们来说是一个重要的优势。 但是,我找不到带有地理空间数据的文档或用例。

我是否应该担心由于使用parquet或它是PostgreSQL -Parquets3的包装而失去地理空间查询功能(后GIS支持)?

根据 postgresql的文档扩展邮政。在同一PostgreSQL FDW列表上,有一些地理数据包装器,但这些内容并不是要使用S3/Minio。 根据 PostGis文档,Postgis带有两个FWD(Oracle FDW和OGR FDW),但这是2014年的帖子

。 /pgsql-ogr-fdw“ rel =“ nofollow noreferrer”>代码存储库 for ogr fdw读取:

ogr是GDAL空间数据访问库的矢量一半。它 允许使用简单的C访问大量的GIS数据格式 用于数据读取和写作的API。由于OGR公开了一个简单的表格 结构和后QL外国数据包装器允许访问表 结构,合身看起来很完美。

接下来是实施的限制列表。

尽管列出了限制,但OGR FDW是否在Parquets3下工作? 有谁知道用于GEO数据(PostGIS)的FDW,也允许从Minio S3存储桶中采购?有镶木木还是同等的? 还是有人测试过上面的配置?

我总是可以替代S3之外的PostgreSQL/Postgis的数据存储,但是我宁愿将其放在Minio群集中。

谢谢。

Designing storage architecture for Petabyte-scale geospatial data; starting from scratch. Creating a MinIo cluster to store the objects in S3 buckets. To store the metadata, I’m considering the Apache Parquet format managed by PostgresSQL, extended by PostGIS.
Using Parquet implies resourcing to a PostgresSQL FDW (foreign data wrapper) - ParquetS3.
No doubts regarding Parquet’s main advantages when compared to "pure" PostgresSQL: higher query speed, higher compression rate, and the ability to store in S3, which for us is a significant advantage.
However, I cannot find documentation or a use case of Parquet with geospatial data.

Should I worry about losing geospatial query features (the PostGIS support) due to the use of Parquet or it’s wrapper for PostgreSQL - ParquetS3?

According to PostgreSQL’s documentation, the wrapper ParquetS3 is valid for PostgreSQL, but I see no mention to the extension PostGIS. On this same PostgreSQL FDW list, there are some geo data wrappers, but these aren’t meant to use use S3/MinIo.
According to PostGIS documentation, PostGIS ships with two FWD (Oracle FDW and OGR FDW), but this is a post from 2014.

The code repository for OGR FDW reads:

OGR is the vector half of the GDAL spatial data access library. It
allows access to a large number of GIS data formats using a simple C
API for data reading and writing. Since OGR exposes a simple table
structure and PostgreSQL foreign data wrappers allow access to table
structures, the fit seems pretty perfect.

This is followed by a list of limitations of the implementation.

Does the OGR FDW work below the ParquetS3 one, despite the limitations listed?
Does anyone know of a FDW for geo data (PostGIS), that also allows sourcing from MinIo S3 buckets? With Parquet or equivalent?
Or has anyone tested the configuration above?

I always have the alternative of creating the data store of the PostgreSQL/PostGIS outside of S3, but I’d rather have it in the MinIo cluster.

Thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

£冰雨忧蓝° 2025-02-04 13:33:19

至于镶木,有一种用于地理空间数据的特殊格式,称为 geoparquet 由开放的地球群体创建。

基于此答案,geoparquet嵌入它的geo数据作为WKB,因此应直接可直接易于访问在Postgis中使用它。但是,官方文档目前仅与Geopandas Python库,Sfarrow R库和GDAL/OGR工具进行集成。

最糟糕的情况 - 您必须编写一个python脚本,以消化S3的数据并以某种形式的ETL(也许使用Apache Airflow)将其上传到PostGis中。

As for Parquet, there is a special format for geospatial data called geoparquet created by Open Geospatial Consortium.

Based on this answer, geoparquet embeds it's geo data as WKB so it should be straightforward to use it in PostGIS. However official documentation currently mentions integration only with geopandas python library, sfarrow R library and GDAL/OGR tools.

Worst-case scenario - you'd have to write a python script for digesting data from S3 and uploading it into PostGIS in some form of ETL (maybe with Apache Airflow).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文