greenplum和hive,各有什么特点,哪个适合做数据仓库呢

发布于 2022-09-04 17:42:16 字数 36 浏览 16 评论 0

greenplum,hive都是数据仓库,该如何做选择呢。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

谈下烟灰 2022-09-11 17:42:16

Greenplum和Hive都自称是数据仓库,但是两种体系架构和使用场景有非常大的不同。

1.Greenplum是MPP数据库,适合处理传统的结构化、半结构化数据库,可以处理PB级别数据。Hive是SQl on Hadoop,是分布式数据库,适合处理超大规模数据,比如100个节点以上。小规模集群下速度比较慢,一般适合做离线计算。

2.使用场景;

  • 离线计算:1PB数据以下,只有结构化数据,Greenplum首选。非结构化数据,用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。
    1PB以上数据,其实非结构化数据偏多,用Spark/Mapreduce处理,GP查询。

  • 业务分析:Greenplum首选,Hive查询速度比Greenplum要差10倍。

  • 机器学习:Spark

  • 地理信息分析:Greenplum+PostGIS

初步理解,望大家补充。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文