如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

发布于 2024-08-30 21:00:17 字数 555 浏览 10 评论 0原文

有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗？我已经阅读了字数统计示例，但我不太明白 Cassandra 端与“客户端”端发生的情况。

https://svn.apache.org/repos/asf/cassandra/ trunk/contrib/word_count/

例如，假设我正在使用 Python 和 Pycassa，我将如何加载新的 Map Reduce 函数，然后调用它？我的 MapReduce 函数必须是安装在 cassandra 服务器上的 java 吗？如果是这样，我如何从 Pycassa 调用它？

还提到 Pig 让这一切变得更容易，但我是一个十足的 Hadoop 菜鸟，所以这并没有真正帮助。

你的答案可以使用 Thrift 或其他什么，我刚刚提到 Pycassa 来表示客户端。我只是想了解 Cassandra 集群中运行的内容与发出请求的实际服务器之间的区别。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

烛影斜 2024-09-06 21:00:17

据我所知（以及此处），开发人员编写 MapReduce 程序的方式使用Cassandra作为数据源如下。您编写一个常规的 MapReduce 程序（您链接到的示例适用于纯 Java 版本），现在可用的 jar 提供了一个 CustomInputFormat，允许输入源为 Cassandra（而不是默认的 Hadoop）。

如果您使用 Pycassa，我想说您运气不好，直到 (1) 该项目的维护者添加了对 MapReduce 的支持，或者 (2) 您将一些 Python 函数放在一起来编写 Java MapReduce 程序并运行它。后者肯定有点麻烦，但可以让你开始工作。

回复收藏 0 原文