返回介绍

1.1 Hadoop 简介

发布于 2024-09-24 23:25:30 字数 2328 浏览 0 评论 0 收藏 0

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

image-20191205203554667

Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  • ⒈高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
  • ⒉高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • ⒊高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • ⒋高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

Hadoop project includes these modules:

  • Hadoop Common: The common utilities that support the other Hadoop modules.
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
  • Hadoop YARN: A framework for job scheduling and cluster resource management.
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Other Hadoop-related projects at Apache include: Hlive, hbase, Pig, Spark, Zookeeper...

Hadoop

  • 起源于一个开源的网络搜索引擎项目 Apache Nutch
  • 由 Apache Lucene 创始人 Doug Cutting 创建
  • Lucene 是一个广泛使用的文本搜索系统库
  • Hadoop 名字的含义:Cutting 的孩子给一头吃饱了的棕黄色大象取的名字

表 1 Hadoop 的发展

时间事件
2002Nutch 起源于 2002 年,一个可以运行的网页爬取工具和搜索引擎系统,缺乏一个可扩展的架构,借鉴 GFS,实现了一个开源的实现——NDFS。
2004实现 HDFS 和 MapReduce 的最初版本
2005.12Nutch MapReduce 系统移植到新框架,Hadoop 在 20 个节点上稳定运行
2006.1Doug Cutting 加入 Yahoo! MapReduce+NDFS 从 Nutch 中移出。
2006.2Hadoop 项目正式启动
2006.11研究集群增加到 600 个节点
2008.4900 个节点运行 1TB 排序测试集仅需 209 秒
2009.317 个集群总共 24000 台机器
  

备注:Hadoop 的核心是 YARN, HDFS 和 Mapreduce。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文