当前位置：文江博客话题详情

面向列的数据库（HBase、Cassandra）中的连续行 ID？

发布于 2024-09-09 17:51:04 字数 426 浏览 8 评论 0原文

在 HBase 中设计行 ID 时，我看到了两条相互矛盾的建议（具体来说，但我认为它也适用于 Cassandra）。

将您经常聚合在一起的键分组，以利用数据局部性。（White，《Hadoop：权威指南》，我记得在 HBase 站点上看到过它，但找不到它...）
分散密钥，以便可以将工作分布在多台计算机上 (Twitter、Pig 和 Twitter 上的 HBase< /a> 幻灯片 14)

我猜测哪一个是最佳的可以取决于您的用例，但是有人对这两种策略有任何经验吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我爱人 2024-09-16 17:51:04

在 HBase 中，表通过划分键空间来划分为区域，键空间按字典顺序排序。表的每个区域都属于单个区域服务器，因此所有读取和写入都由该服务器处理（这可以提供强一致性保证）。这意味着，如果您的所有读取或写入都集中在密钥空间的一小部分上，那么您将只能扩展到单个区域服务器可以处理的范围。例如，如果您的数据是时间序列并由时间戳作为键控，则所有写入都将写入表中的最后一个区域，并且您将被迫以单个服务器可以处理的速率进行写入。

另一方面，如果您可以选择键，使得任何给定查询只需要扫描一小部分行，但整个读写集分布在您的键空间中，那么总负载将被分配和扩展很好，但您仍然可以享受查询的本地化优势。

回复收藏 0 原文

~没有更多了~