将多个连续 HBase 查询的结果传递给 Mapreduce 作业

发布于 2024-12-18 17:06:52 字数 776 浏览 3 评论 0原文

我有一个 HBase 数据库，它存储有向图的邻接列表，每个方向的边存储在一对列族中，其中每行表示一个顶点。我正在编写一个mapreduce作业，它将所有节点作为其输入，这些节点也具有指向相同顶点的边，并且具有指向其他顶点的边（指定为查询的主题）。这有点难以解释，但在下图中，当查询顶点“A”时，作为输入的节点集将是 {A, B, C}，因为它们都具有来自顶点的边'1':

Example graph

为了在 HBase 中执行此查询，我首先在撤销边列族产生 {1}，并且对于该集合中的每个元素，在前向边列族中查找具有来自该集合的该元素的边的顶点。

这应该产生一组键值对：{1: {A,B,C}}。

现在，我想获取这组查询的输出并将其传递给 hadoop mapreduce 作业，但是，我找不到将 hbase 查询“链接”在一起以向 Hbase mapreduce 中的 TableMapper 提供输入的方法API。到目前为止，我唯一的想法是提供另一个初始映射器，它获取第一个查询的结果（在反向边缘表上），对于每个结果，在前向边缘表上执行查询，并生成要传递给的结果第二个地图工作。然而，从映射作业中执行 IO 让我感到不安，因为它似乎与 MapReduce 范例相反（如果多个映射器都尝试同时访问 HBase，则可能会导致瓶颈）。因此，任何人都可以建议执行此类查询的替代策略，或者提供有关以这种方式使用 hbase 和 mapreduce 的最佳实践的任何建议吗？我也有兴趣知道我的数据库架构是否有任何改进可以缓解这个问题。

谢谢，

蒂姆

原文

分享到QQ

分享到微博