文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
1.1 Hadoop 简介
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
- ⒈高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
- ⒉高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
- ⒊高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- ⒋高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
Hadoop project includes these modules:
- Hadoop Common: The common utilities that support the other Hadoop modules.
- Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
- Hadoop YARN: A framework for job scheduling and cluster resource management.
- Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Other Hadoop-related projects at Apache include: Hlive, hbase, Pig, Spark, Zookeeper...
Hadoop
- 起源于一个开源的网络搜索引擎项目 Apache Nutch
- 由 Apache Lucene 创始人 Doug Cutting 创建
- Lucene 是一个广泛使用的文本搜索系统库
- Hadoop 名字的含义:Cutting 的孩子给一头吃饱了的棕黄色大象取的名字
表 1 Hadoop 的发展
时间 | 事件 |
---|---|
2002 | Nutch 起源于 2002 年,一个可以运行的网页爬取工具和搜索引擎系统,缺乏一个可扩展的架构,借鉴 GFS,实现了一个开源的实现——NDFS。 |
2004 | 实现 HDFS 和 MapReduce 的最初版本 |
2005.12 | Nutch MapReduce 系统移植到新框架,Hadoop 在 20 个节点上稳定运行 |
2006.1 | Doug Cutting 加入 Yahoo! MapReduce+NDFS 从 Nutch 中移出。 |
2006.2 | Hadoop 项目正式启动 |
2006.11 | 研究集群增加到 600 个节点 |
2008.4 | 900 个节点运行 1TB 排序测试集仅需 209 秒 |
2009.3 | 17 个集群总共 24000 台机器 |
备注:Hadoop 的核心是 YARN, HDFS 和 Mapreduce。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论