在实践中，您需要多少台机器才能让 Hadoop / MapReduce / Mahout 加速可并行化的计算？

发布于 2024-11-19 21:36:23 字数 241 浏览 6 评论 0原文

我需要进行一些繁重的机器学习计算。我在局域网上有少量空闲的机器。我需要多少台机器才能使用 hadoop / mapreduce / mahout 分布式计算，以便比在没有这些分布式框架的情况下在单台机器上运行要快得多？这是一个计算开销与收益的实际问题，因为我假设在两台机器之间分配总时间会比不分配并简单地在一台机器上运行更糟糕（只是因为分配计算涉及的所有开销）。

技术说明：一些繁重的计算是非常可并行的。所有这些只要每台机器都有自己的原始数据副本即可。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

無處可尋 2024-11-26 21:36:23

“普通”Java 程序和基于 Hadoop、MapReduce 的实现是非常不同的野兽，很难进行比较。这并不像 Hadoop 会并行化您的程序的一小部分；而是会并行化您的程序。它从上到下以完全不同的形式书写。

Hadoop 有开销：只是启动作业以及启动映射器和减速器等工作器的开销。它会花费更多的时间来序列化/反序列化数据、在本地写入数据并将其传输到 HDFS。

基于 Hadoop 的实施总是会消耗更多的资源。所以，除非你无法避免，否则这是应该避免的事情。如果您可以在一台机器上运行非分布式计算，那么最简单的实用建议就是不要分布式。省去自己的麻烦。

就 Mahout 推荐器而言，我可以非常粗略地告诉您，对于相同数据，Hadoop 作业的计算量比非分布式实现多 2-4 倍。显然，这在很大程度上取决于算法和算法调整选择。但给你一个数字：我不会为少于 4 台机器的 Hadoop 集群烦恼。

显然，如果你的计算无法适应你的一台机器，你别无选择，只能进行分发。然后，权衡是您可以允许什么样的挂钟时间与您可以投入多少计算能力。对阿姆达尔定律的引用是正确的，尽管它没有考虑 Hadoop 的巨大开销。例如，要并行化 N 种方式，您至少需要 N 个映射器/减速器，并且会产生 N 倍的每个映射器/减速器开销。还有一些固定的启动/关闭时间。

回复收藏 0 原文

一花一树开 2024-11-26 21:36:23

请参阅阿姆达尔定律

阿姆达尔定律是算法并行实现的预期加速相对于串行算法之间关系的模型，假设并行化时问题大小保持不变。例如，如果对于给定的问题大小，算法的并行实现可以任意快速地运行 12% 的算法操作（而其余 88% 的操作不可并行），则阿姆达尔定律指出并行版本的最大加速比是非并行化实现速度的 1/(1 – 0.12) = 1.136 倍。

方程式图片