返回介绍

2.1 Hadoop MapReduce (MR)

发布于 2024-09-23 22:27:22 字数 560 浏览 0 评论 0 收藏 0

MapReduce 是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map 和 Reduce。Map 将一个作业分解成为多个任务,Reduce 将分解后多个任务处理的结果汇总起来,得出最终的分析结果。

结构

MapReduce 通过实现 YARN 的 Client 和 ApplicationMaster 接口集成到 YARN 中,利用 YARN 申请计算所需资源。

与组件的关系

MapReduce 和 HDFS 的配合关系

  • HDFS 是 Hadoop 分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。
  • MapReduce 是一种编程模型,用于大数据集(大于 1TB)的并行运算。在 MapReduce 程序中计算的数据可以来自多个数据源,如 Local FileSystem、HDFS、数据库等。最常用的是 HDFS,可以利用 HDFS 的高吞吐性能读取大规模的数据进行计算。同时在计算完成后,也可以将数 据存储到 HDFS。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文