文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
2.1 Hadoop MapReduce (MR)
MapReduce 是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map 和 Reduce。Map 将一个作业分解成为多个任务,Reduce 将分解后多个任务处理的结果汇总起来,得出最终的分析结果。
结构
MapReduce 通过实现 YARN 的 Client 和 ApplicationMaster 接口集成到 YARN 中,利用 YARN 申请计算所需资源。
与组件的关系
MapReduce 和 HDFS 的配合关系
- HDFS 是 Hadoop 分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。
- MapReduce 是一种编程模型,用于大数据集(大于 1TB)的并行运算。在 MapReduce 程序中计算的数据可以来自多个数据源,如 Local FileSystem、HDFS、数据库等。最常用的是 HDFS,可以利用 HDFS 的高吞吐性能读取大规模的数据进行计算。同时在计算完成后,也可以将数 据存储到 HDFS。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论