当前位置：文江博客话题详情

greenplum和hive，各有什么特点，哪个适合做数据仓库呢

发布于 2022-09-04 17:42:16 字数 36 浏览 20 评论 0

greenplum，hive都是数据仓库，该如何做选择呢。

需要登录才能够评论，你可以免费注册一个本站的账号。

谈下烟灰 2022-09-11 17:42:16

Greenplum和Hive都自称是数据仓库，但是两种体系架构和使用场景有非常大的不同。

1.Greenplum是MPP数据库，适合处理传统的结构化、半结构化数据库，可以处理PB级别数据。Hive是SQl on Hadoop，是分布式数据库，适合处理超大规模数据，比如100个节点以上。小规模集群下速度比较慢，一般适合做离线计算。

2.使用场景；

离线计算：1PB数据以下，只有结构化数据，Greenplum首选。非结构化数据，用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。
1PB以上数据，其实非结构化数据偏多，用Spark/Mapreduce处理，GP查询。
业务分析：Greenplum首选，Hive查询速度比Greenplum要差10倍。
机器学习：Spark
地理信息分析：Greenplum+PostGIS

初步理解，望大家补充。

~没有更多了~