hbase rowkey 问题
一份全量 用户数据 格式 简单描述为
userid1_k1_20160616 -> value
userid1_k2_20160616 -> value
userid1_k3_20160616 -> value
userid1 下有很多中不同类型数据 k1 k2 k3
现在这份数据 存入到了 hbase 中,有一个问题是,假设某一天的数据出了问题,需要重新跑一份
但是新的数据,并不一定是 k1 k2 k3 都有数据 可能 只有 k1 k2 有数据,k3没有数据
这样的话,通过bulkload 将数据载入,查询的时候 查 userid1 这样 k3 也会被查出来,一个个删不太现实
没想到好的设计方法,各位有遇到过相关场景可以指导下。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
1. value值不多的话,那就把所有userid的值全部放到一个cell里面,然后更新的时候就覆盖了原始值。 2.如果不用bulkload导入的话,可以考虑采用协处理器的方式处理删除操作。 3. 如果数据不删除没关系的话,读取的时候,根据时间戳过滤就好。