greenplum,hive都是数据仓库,该如何做选择呢。
Greenplum和Hive都自称是数据仓库,但是两种体系架构和使用场景有非常大的不同。
1.Greenplum是MPP数据库,适合处理传统的结构化、半结构化数据库,可以处理PB级别数据。Hive是SQl on Hadoop,是分布式数据库,适合处理超大规模数据,比如100个节点以上。小规模集群下速度比较慢,一般适合做离线计算。
2.使用场景;
离线计算:1PB数据以下,只有结构化数据,Greenplum首选。非结构化数据,用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。1PB以上数据,其实非结构化数据偏多,用Spark/Mapreduce处理,GP查询。
业务分析:Greenplum首选,Hive查询速度比Greenplum要差10倍。
机器学习:Spark
地理信息分析:Greenplum+PostGIS
初步理解,望大家补充。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(1)
Greenplum和Hive都自称是数据仓库,但是两种体系架构和使用场景有非常大的不同。
1.Greenplum是MPP数据库,适合处理传统的结构化、半结构化数据库,可以处理PB级别数据。Hive是SQl on Hadoop,是分布式数据库,适合处理超大规模数据,比如100个节点以上。小规模集群下速度比较慢,一般适合做离线计算。
2.使用场景;
离线计算:1PB数据以下,只有结构化数据,Greenplum首选。非结构化数据,用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。
1PB以上数据,其实非结构化数据偏多,用Spark/Mapreduce处理,GP查询。
业务分析:Greenplum首选,Hive查询速度比Greenplum要差10倍。
机器学习:Spark
地理信息分析:Greenplum+PostGIS
初步理解,望大家补充。