1.3 Hadoop 发行版
目前 Hadoop 发行版非常多,有华为发行版、Intel 发行版、Cloudera 发行版(CDH)等,所有这些发行版均是基于 Apache Hadoop 衍生出来的,之所以有这么多的版本,完全是由 Apache Hadoop 的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。
Apache Hadoop 不足之处
- 版本管理混乱
- 部署过程繁琐、升级过程复杂
- 兼容性差
- 安全性低
国内绝大多数公司发行版是收费的,比如 Intel 发行版、华为发行版等,尽管这些发行版增加了很多开源版本没有的新 feature,但绝大多数公司选择 Hadoop 版本时会将把是否收费作为重要指标,不收费的 Hadoop 版本主要有三个(均是国外厂商),分别是:
- Apache Hadoop、
- Cloudera 版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、
- Hortonworks 版本(Hortonworks Data Platform,简称“HDP”)
备注:按顺序代表了,在国内的使用率,CDH 和 HDP 虽然是收费版本,但是他们是开源的,只是收取服务费用。
2018 年 10 月,Cloudera 与 Hortonworks 公司宣布以 52 亿美元的价格合并。
表格 4 Hadoop 产品化的主流厂商列表
厂商名 | 商业模式 | 现状 |
---|---|---|
Cloudera~ CDH | 开源+自有组件。提出了 Hybrid Open Source 的架构:核心组件名称叫 CDH(Cloudera’s Distribution including Apache Hadoop),开源免费并与 Apache 社区同步,用户无限制使用,保证 Hadoop 基本功能持续可用,不会被厂家绑定;数据治理和系统管理组件闭源且 需要商业许可,支持客户可以更好更方便的使用 Hadoop 技术,如部署安全策略等。 | 开源、付费服务 |
~~Hortonworks HDP~ | 100%完全开源策略。产品名称为 HDP(Hortonworks Data Platform)。 所有软件产品开源,用户免费使用,Hortonworks 提供商业的技术支持服务。 与 CDH 相比,管理软件使用开源 Ambari,数据治理使用 Atlas,安全组件使用 Ranger 而非 Sentry,SQL 继续紧抱 Hive 大腿。 | 开源、付费服务 |
MapR | 采用了传统软件厂商的模式,使用私有化的实现。用户购买软件许可后才能使用。其 OLAP 产品主推 Drill,又不排斥 Impala。 | 闭源、付费 |
华为~FI | 类似 Cloudera。 | 闭源、付费 |
Amazon ~EMR | 轻松运行和扩展 Apache Hadoop、Spark、HBase、Presto、Hive 以及其他大数据框架 |
备注:曾经私有化 Hadoop 版本的代表 Pivotal 和 Intel 都已经放弃,IBM 几乎事实上放弃了自有 Hadoop。
1.3.1 CDH
CDH: Cloudera Distribution Hadoop Cloudera 公司的发行版。截至目前为止,CDH 共有 5 个版本,其中,前两个已经不再更新,最近的两个,分别是 CDH4,在 Apache Hadoop 2.0.0 版本基础上演化而来的,CDH5,它们每隔一段时间便会更新一次。
图 4 CDH 架构
备注:Impala 于 2015.10 开源,用于 OLAP。
CDH 的优点
• 版本划分清晰
• 版本更新速度快
• 支持 Kerberos 安全认证
• 文档清晰
• 支持多种安装方式(Cloudera Manager 方式)
CDH 安装方式
• Cloudera Manager
• Yum
• Rpm
• Tarball
CDH 下载地址
• CDH5.4
http://archive.cloudera.com/cdh5/
•Cloudera Manager5.4.3:
http://www.cloudera.com/downloads/manager/5-4-3.html
1.3.2 HDP
HDP:Hortonworks Data Platform
Hortonworks Sandbox on a VM (沙盒)
Get Notified about the HDP 3.0 Sandbox
1.3.3 FI(Huawei FusionInsight)
FI:FusionInsgiht
华为 FusionInsight 是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。FusionInsight 在 Hadoop 集群上又封装了一层,类似于开源的 CDH,HDP 等大数据平台。
图 5 FusionInsight 组成结构图
FusionInsight 解决方案由 4 个子产品 FusionInsight HD、FusionInsight MPPDB、FusionInsight Miner、FusionInsight Farmer 和 1 个操作运维系统 FusionInsight Manager 构成。
FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
FusionInsight MPPDB:企业级的大规模并行处理关系型数据库。FusionInsight MPPDB 采用 MPP(Massive Parallel Processing) 架构,支持行存储和列存储,提供 PB(Petabyte,2 的 50 次方字节) 级别数据量的处理能力。 2018 年特指 libra(原 gauss)。
FusionInsight Miner:企业级的数据分析平台,基于华为 FusionInsight HD 的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。
FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管理的平台。
FusionInsight Manager:企业级大数据的操作运维系统,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。
图 6 FusionInsight HD 系统逻辑架构图
FusionInsight HD 对开源组件进行封装和增强,包含 Manager 和众多组件。
图 7 libra 整体逻辑架构
1.3.4 EMR (Amazon)
Amazon EMR 是一个完全托管型的 Web 服务,它可以让您轻松并且安全的预配置和管理您的 Hadoop 集群。
Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可以调整大小的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
1.3.5 TDH (Transwarp Data Hub)
星环信息科技(上海) 有限公司是目前国内极少数掌握企业级大数据核心技术的高科技公司,从事大数据时代核心平台数据库软件的研发与服务。在全球去 IOE 的大背景下,Apache Hadoop 技术已成为公认的替代传统数据库的大数据产品。公司产品 Transwarp Data Hub (TDH) 的整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平。从 2016 年起,TDH 正式成为 Gartner 认可的 Hadoop 国际主流发 行版本。
公司研发团队是国内最早的大数据 Apache Hadoop 发行版团队,从 2009 年起即开始致力于大数据平台软件的自主创新和开发,与硅谷同类公司同时起步;2011 年在中国率先推出基于 Apache Hadoop 发行版;之后,团队负责人原英特尔亚太研发中心 CTO 孙元浩、亚太区销售总监佘晖离开英特尔,创办星环科技。
TDH 是国内首个全面支持 Spark 的 Hadoop 发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台,比开源基于 Hadoop MapReduce 计算框架的版本快 10x~100x 倍。
图 8 TDH 产品架构图
本节参考
大数据厂商
- CDH http://archive.cloudera.com
- HDP https://hortonworks.com/products/data-platforms/hdp/
- FI http://support.huawei.com/enterprise/zh/cloud-computing/fusioninsight-hd-pid-21110924
- EMR https://aws.amazon.com/cn/emr/
- transwarp http://www.transwarp.cn/
参考链接
[1]. hortonworks https://docs.hortonworks.com/
[2]. Transwarp Inceptor 简介 https://blog.csdn.net/bingoxubin/article/details/79072393
[3]. Transwarp Data Hub 社区版 (TDH-CE) http://www.transwarp.cn/product/tdh_ce
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论