hbase rowkey 问题

发布于 2021-12-06 06:15:09 字数 393 浏览 749 评论 1

一份全量 用户数据 格式 简单描述为

userid1_k1_20160616 -> value
userid1_k2_20160616 -> value
userid1_k3_20160616 -> value

userid1 下有很多中不同类型数据 k1 k2 k3
现在这份数据 存入到了 hbase 中,有一个问题是,假设某一天的数据出了问题,需要重新跑一份
但是新的数据,并不一定是 k1 k2 k3 都有数据 可能 只有 k1 k2 有数据,k3没有数据
这样的话,通过bulkload 将数据载入,查询的时候 查 userid1 这样 k3 也会被查出来,一个个删不太现实


没想到好的设计方法,各位有遇到过相关场景可以指导下。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

落墨 2021-12-06 11:42:09

1. value值不多的话,那就把所有userid的值全部放到一个cell里面,然后更新的时候就覆盖了原始值。 2.如果不用bulkload导入的话,可以考虑采用协处理器的方式处理删除操作。 3. 如果数据不删除没关系的话,读取的时候,根据时间戳过滤就好。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文