Hadoop MapReduce 中的地图应用程序缓存？

发布于 2024-08-10 07:08:22 字数 576 浏览 12 评论 0原文

从数据流的角度来看 MapReduce 和 HBase 的组合，我的问题似乎很合适。我有一大堆文档想要映射、合并和减少。我之前的 SQL 实现是将任务拆分为批处理操作，将 Map 的结果累积存储到表中，然后执行相当于归约的操作。这样做的好处是，在执行期间（或执行之间）的任何时候，我都可以及时获得 Map 的结果。

据我了解，作为 MapReduce 运行此作业将需要每次运行所有 Map 函数。

我的 Map 函数（实际上是任何函数）对于给定的输入总是给出相同的输出。如果不需要的话，重新计算输出根本没有意义。我的输入（一组文档）将不断增长，我将定期对数据运行 MapReduce 操作。在执行之间，我只需要计算新添加文档的 Map 函数。

我的数据可能是 HBase -> MapReduce-> HBase。鉴于 Hadoop 是一个完整的生态系统，它可能能够知道给定的函数已应用于具有给定标识的行。我假设 HBase 表中的条目不可变。 Hadoop 是否/可以考虑到这一点？

我从文档（尤其是 Cloudera 视频）中了解到，对于 Hadoop 所处理的问题类别，重新计算（潜在冗余数据）可能比持久化和检索更快。

有什么意见/答案吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

再见回来 2024-08-17 07:08:22

如果您希望避免每次都运行 Map 步骤，请将其分解为单独的步骤（通过使用 IdentityReducer 或将作业的化简器数量设置为 0），并使用映射步骤的输出运行后续步骤。

这实际上是否比每次从原始数据重新计算更快取决于输入数据与输出数据的数量和形状、映射步骤的复杂程度等。

请注意，在新数据集上运行映射器不会附加到以前的运行 - 但您可以通过使用带日期的输出文件夹来解决此问题。这就是说，您可以将映射第一批文件的输出存储在 my_mapper_output/20091101 中，将下周的批次存储在 my_mapper_output/20091108 中，依此类推。如果您如果想要减少整个集合，您应该能够传入 my_mapper_output 作为输入文件夹，并捕获所有输出集。

回复收藏 0 原文