文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

1.1 Hadoop 简介

发布于 2024-09-24 23:25:30 字数 2328 浏览 0 评论 0 收藏 0

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
⒉高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
⒊高效性。Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
⒋高容错性。Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

Hadoop project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Other Hadoop-related projects at Apache include: Hlive, hbase, Pig, Spark, Zookeeper...

Hadoop

起源于一个开源的网络搜索引擎项目 Apache Nutch
由 Apache Lucene 创始人 Doug Cutting 创建
Lucene 是一个广泛使用的文本搜索系统库
Hadoop 名字的含义：Cutting 的孩子给一头吃饱了的棕黄色大象取的名字

表 1 Hadoop 的发展

时间	事件
2002	Nutch 起源于 2002 年，一个可以运行的网页爬取工具和搜索引擎系统，缺乏一个可扩展的架构，借鉴 GFS，实现了一个开源的实现——NDFS。
2004	实现 HDFS 和 MapReduce 的最初版本
2005.12	Nutch MapReduce 系统移植到新框架，Hadoop 在 20 个节点上稳定运行
2006.1	Doug Cutting 加入 Yahoo！ MapReduce+NDFS 从 Nutch 中移出。
2006.2	Hadoop 项目正式启动
2006.11	研究集群增加到 600 个节点
2008.4	900 个节点运行 1TB 排序测试集仅需 209 秒
2009.3	17 个集群总共 24000 台机器

备注：Hadoop 的核心是 YARN, HDFS 和 Mapreduce。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

1.1 Hadoop 简介

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。