处理对同一数据集的查询流时的高效 MapReduce

发布于 2024-08-20 10:59:57 字数 301 浏览 4 评论 0原文

我有一个巨大的静态数据集,并且有一个可以应用于它的函数。

f 的形式为 reduce(map(f, dataset)),因此我将使用 MapReduce 骨架。但是,我不想在每个请求中分散数据(理想情况下我想利用索引来加速 f)。有一个 MapReduce 实现可以解决这种一般情况吗?

我查看了 IterativeMapReduce ,也许它可以完成工作,但似乎解决了稍微不同的情况,并且代码尚不可用。

I have a massive, static dataset and I've a function to apply to it.

f is in the form reduce(map(f, dataset)), so I would use the MapReduce skeleton. However, I don't want to scatter the data at each request (and ideally I want to take advantage of indexing in order to speedup f). There is a MapReduce implementation that address this general case?

I've taken a look at IterativeMapReduce and maybe it does the job, but seems to address a slightly different case, and the code isn't available yet.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

初心 2024-08-27 10:59:57

Hadoop 的 MapReduce(以及所有其他受 Google 启发的 Map-Reduce 框架)并不总是分散数据。

Hadoop's MapReduce (and all the others map-reduce skeleton inspired by Google) doesn't scatter the data all the time.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文