与使用 java 相比，hbase/hadoop 中的流作业是否有任何功能损失？

发布于 2024-12-07 18:08:59 字数 415 浏览 7 评论 0原文

如果这是一个基本问题，请提前抱歉。我正在阅读一本关于 hbase 和学习的书，但书中的大多数示例（以及在线示例）都倾向于使用 Java（我猜是因为 hbase 是 java 原生的）。有一些 python 示例，我知道我可以使用 python 访问 hbase（使用 thrift 或其他模块），但我想知道其他功能？

例如，hbase 有一个“协处理器”功能，可以将数据推送到您进行计算的位置。这种类型是否适用于 python 或其他使用流式 hadoop 作业的应用程序？看来使用java，它可以知道你在做什么并相应地管理数据流，但这如何与流式传输一起工作呢？如果它不起作用，有没有办法获得这种类型的功能（通过流媒体而不切换到另一种语言）？

也许问这个问题的另一种方式是……非 Java 程序员可以做什么来在流式传输时获得 hadoop 功能的所有好处？

提前致谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧人九事 2024-12-14 18:08:59

据我所知，您正在谈论两个（或更多）完全不同的概念。

“Hadoop Streaming”可以通过可执行文件流式传输数据（独立于您选择的编程语言）。使用流式传输时，不会有任何功能损失，因为该功能基本上是映射/减少从 hadoop 流获取的数据。

对于hadoop部分，您甚至可以使用pig或hive大数据查询语言来高效地完成工作。使用最新版本的 pig，您甚至可以在 python 中编写自定义函数并在 pig 脚本中使用它们。

尽管有工具可以让您使用您熟悉的语言，但不要忘记hadoop框架主要是用java编写的。有时您可能需要编写专门的输入格式；或者猪内部的 UDF 等。然后，对 java 的了解就会派上用场。

您的“Hbase 协处理器”示例与 hadoop 的流功能有点无关。 Hbase协处理器由两部分组成：服务器端部分、客户端部分。我非常确定 hbase 中会嵌入一些有用的服务器端协处理器并发布；但除此之外，您还需要编写自己的协处理器（坏消息：它是 java）。对于客户端，我相信您可以通过 Thrift 将它们与您最喜欢的编程语言一起使用，而不会出现太多问题。

所以作为你问题的答案：你总是可以逃避学习java；仍然使用 hadoop 来发挥其潜力（使用第 3 方库/应用程序）。但当事情发生时，最好还是了解其背后的内容；能够用java进行开发。了解 java 将使您能够完全控制 hadoop/hbase 环境。

希望您会发现这很有帮助。

回复收藏 0 原文