当前位置：文江博客话题详情

HBase 访问和索引

发布于 2024-12-19 07:05:07 字数 326 浏览 4 评论 0原文

我有一个大约有 5000 万行的 HBase 表，每行有几列。我的目标是从表中检索在给定列中具有给定值的那些行，例如列“col_1”具有值“val_1”的行。

我有两个选项可供选择：

从头到尾扫描表，检查每一行，看看是否应该检索它；
为该表构建索引（例如，列“col_1”中的值的索引），然后对于给定的列值“val_1”，获取与该索引“val_1”关联的所有行键，然后遍历这些行键并检索相应的行。在我看来，这将涉及对原始 hbase 表的随机访问。

有人给我一些关于哪个选项运行速度更快的建议，或者您有另一个更好的选择吗？

多谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倾城泪 2024-12-26 07:05:07

你是想问加索引会不会更快？答案当然是肯定的。您可以查看wiki，了解有关 HBase 二级索引的想法。

回复收藏 0 原文

此刻的回忆 2024-12-26 07:05:07

索引肯定比每次扫描 50M 行要快。如果您使用已经具有协处理器的 hbase 版本，您可以遵循 Xodarap 建议。如果您使用旧版本的 Hbase，则需要设置一个附加表作为索引并手动更新（每次更新主表或偶尔通过 map/reduce）

回复收藏 0 原文

冷血 2024-12-26 07:05:07

二级索引会更快。您还可以尝试使用 culvert 等二级索引库，而不是创建自己的索引。

回复收藏 0 原文

~没有更多了~

关于作者

无语#

暂无简介

文章

28 人气

关注发私信

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

HBase 访问和索引

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者