云中的 MapReduce

发布于 2024-09-04 13:44:36 字数 47 浏览 17 评论 0原文

除了 Amazon MapReduce 之外，我还有哪些其他选择来处理大量数据？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

毁梦 2024-09-11 13:44:36

Microsoft 也在 Windows Azure 上运行 Hadoop/MapReduce，但它受到有限的 CTP 限制，但是您可以通过以下链接提供您的信息和 CTP 访问请求：
https://www.hadooponazure.com/
Windows Azure 的基于 Apache Hadoop 的服务的开发者预览版可通过邀请获得。

除此之外，您还可以尝试 Google BigQuery，其中您必须首先将数据移动到 Google 临时存储，然后在其上运行 BigQuery。请记住，BigQuery 基于 Dremel，它与 MapReduce 类似，但由于基于列的搜索处理而速度更快。

还有另一种选择是使用 Mortar Data，因为他们使用了 python 和 Pig，可以智能地轻松编写作业并可视化结果。我觉得很有趣，请看一下：
http://mortardata.com/#!/how_it_works

回复收藏 0 原文

泪之魂 2024-09-11 13:44:36

DataStax Brisk 很好。

完整的发行版

Apache Hadoop
Cloudera 的发行版，包括 Apache Hadoop（这是官方名称）
IBM Apache Hadoop 发行版
DataStax Brisk
Amazon Elastic MapReduce

HDFS 替代品

Mapr
Appistry CloudIQ Storage Hadoop Edition
IBM 全球并行文件系统 (GPFS)
CloudStore

Hadoop MapReduce 替代品

Pervasive DataRush
Cascading
Hive（Apache 子项目，包含在 Cloudera 的发行版中）
Pig（雅虎开发的语言，包含在 Cloudera 的发行版中）

请参阅：http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

回复收藏 0 原文

太阳哥哥 2024-09-11 13:44:36

如果想使用机器集群实时处理大量数据（twitter feed、网站点击流）等，请查看最近从 twitter 开源的“storm”

标准 Apache Hadoop 非常适合批量处理 PB 级数据，其中延迟不是问题。

如上所述，DataStax 的 Brisk 非常独特，因为您可以对实时数据使用 MapReduce 并行处理。

还有其他一些工作，例如 Hadoop Online，它允许使用管道进行处理。

Google BigQuery 显然是另一种选择，您可以使用 csv（分隔记录），并且无需任何设置即可进行切片和切块。它使用起来非常简单，但它是一项高级服务，您无需付费。处理的字节数（尽管每月前 100GB 是免费的）。

回复收藏 0 原文

不气馁 2024-09-11 13:44:36

如果您想留在云中，您还可以启动 EC2 实例来创建永久的 Hadoop 集群。 Cloudera 在此处提供了大量有关设置此类集群的资源。

但是，此选项的成本效益低于 Amazon Elastic Mapreduce，除非您一天中有大量作业需要运行，从而使集群相当繁忙。

另一种选择是构建您自己的集群。 Hadoop 的一大优点是您可以将异构硬件拼凑成具有良好计算能力的集群。可以放在服务器机房机架中的那种。考虑到现有的旧硬件已经支付了费用，让这样一个集群运行的唯一成本是新驱动器，也许还有足够的内存条来最大化这些盒子的容量。那么这种方式的成本效益比亚马逊要好得多。唯一需要注意的是您是否有足够的带宽定期将所有数据拉入集群的 HDFS。

回复收藏 0 原文