2.1 GreenPlum (Pivotal/EMC)
Pivotal 公司成立于 2003 年,2006 年推出了首款产品,其主营业务关注在数据仓库和商业智能方面,Greenplum DW/BI 软件可以在虚拟化 x86 服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。2010 年被 EMC 收购。
两款产品:GreenPlum、HAWQ
2.1.1 GreenPlum
2005 年,Greenplum 数据库第一个版本发布。基于强大的开源数据库 PostgreSQL
2015 年,Greenplum 开源,世界上第一款开源 MPP 数据库。开源版本基于 Greenplum4.3。
图 21 GreenPlum 架构
2.1.2 HAWQ
Pivotal 的 SQL on Hadoop 方案是基于 10 多年来产品开发的成果价值,即投资研发 Greenplum Database——Pivotal 的旗舰分析数据仓库。Pivotal 正是利用这一代码基础和深度数据管理专业知识来构建了业内最好的 SQL on Hadoop 企业引擎。
HAWQ,全称 Hadoop With Query(带查询 Hadoop)。HAWQ 使企业能够获益于经过锤炼的基于 MPP 的分析功能及其查询性能,同时利用 Hadoop 堆栈。
HAWQ 的历史和现状
想法和原型系统(2011):GOH 阶段(Greenplum Database On HDFS)。
HAWQ 1.0 Alpha(2012):多个国外大型客户试用,当时客户性能测试是 Hive 的数百倍。促进了 HAWQ 1.0 作为正式产品发布。
HAWQ 1.0 GA(2013 年初):改变了传统 MPP 数据库架构,包括事务,容错,元数据管等。
HAWQ 1.X 版本(2014-2015 Q2):增加了一些企业级需要的功能,比如 Parquet 存储,新的优化器,Kerberos,Ambari 安装部署。客户覆盖全球。
HAWQ 2.0 Alpha 发布并成为 Apache 孵化器项目:针对云环境的系统架构重新设计,数十个高级功能,包括弹性执行引擎,高级资源管理,YARN 集成,秒级扩容 等等。现在大家在 Apache 开源的是最新的 2.0 Alpha 版本。未来的开发都在 Apache 进行。
图 22 Pivotal 的 SQL on Hadoop 方案
图 23 HAWQ 系统架构
HAWQ 集群的主要组件:其中有几个 Master 节点:包括 HAWQ master 节点,HDFS master 节点 NameNode,YARN master 节点 ResourceManager。每个 Slave 节点上部署有 HDFS DataNode,YARN NodeManager 以及一个 HAWQ Segment。HAWQ Segment 在执行查询的时候会启动多个 QE (Query Executor, 查询执行器)。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论