可变大小键的 B 树实现

发布于 2025-01-06 04:19:29 字数 787 浏览 1 评论 0原文

我希望为“一次使用”索引实现一个 B 树（用 Java 实现），其中插入几百万个键，然后对每个键进行几次查询。键是 <= 40 字节的 ascii 字符串，关联的数据始终占用 6 字节。选择B树结构是因为我的内存预算不允许我将整个临时索引保留在内存中。

我的问题是关于选择分支因子和在磁盘上存储节点的实际细节。在我看来，有两种方法：

一个节点始终适合一个块。通过选择分支因子 k 来实现，即使对于最坏情况的密钥长度，密钥、数据和控制结构的存储要求也小于系统块大小。 k 可能很低，并且节点在大多数情况下会有很多空闲空间。
一个节点可以存储在多个块上。分支因子的选择与密钥大小无关。加载单个节点可能需要加载多个块。

那么问题是：

第二种方法通常用于可变长度密钥吗？或者我错过了一些完全不同的方法？
鉴于我的用例，您会推荐不同的整体解决方案吗？

最后我应该提到，我知道 jdbm3 项目，并且正在考虑使用它。在任何情况下都会尝试实现我自己的，既作为学习练习，又看看特定情况的优化是否可以产生更好的性能。

编辑：目前阅读有关 SB-Trees 的内容：

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半世蒼涼 2025-01-13 04:19:29

我在这里缺少选项 C：

至少两个元组总是适合一个块，块大小是相应选择的。块中填充了尽可能多的键/值对，这意味着分支因子是可变的。如果块大小远大于（键，值）元组的平均大小，则浪费的空间将非常低。由于光盘的最佳 IO 大小通常为 4k 或更大，并且您的最大元组大小为 46，因此在您的情况下这自动成立。

对于所有选项，您都有一些变体：B* 或 B+ 树（请参阅维基百科）。

回复收藏 0 原文

自此以后，行同陌路 2025-01-13 04:19:29

JDBM BTree 已经是自我平衡的。它还具有非常快的碎片整理功能，可以解决上述所有问题。

一个节点可以存储在多个块上。分支因子的选择与密钥大小无关。加载单个节点可能需要加载多个块。

没有必要。 JDBM3 使用映射内存，因此它永远不会将整个块从磁盘读取到内存。它在块顶部创建“视图”，并且仅读取实际需要的部分数据。因此，它可能只读取 2x128 字节，而不是读取完整的 4KB 块。这取决于底层操作系统块大小。

第二种方法通常用于可变长度密钥吗？或者我错过了一些完全不同的方法？

我认为您忽略了一点：增加磁盘大小会降低性能，因为必须读取更多数据。并且单棵树可以共享两种方法（首先是新插入的节点，其次是碎片整理后的节点）。

无论如何，带有映射内存缓冲区的平面文件可能最适合您的问题。由于您的记录大小是固定的并且只有几百万条记录。

还可以看看leveldb。它有新的java端口，几乎击败了JDBM：

https://github.com/dain/leveldb

http://code.google.com/p/leveldb/

回复收藏 0 原文

轻拂→两袖风尘 2025-01-13 04:19:29

如果您使用一些嵌入式数据库，您可以避免这种麻烦。这些已经为您解决了这些问题以及更多问题。

您还可以写：“几百万个键”...“[最大] 40 字节 ascii 字符串”和“6 字节[相关数据]”。这算不上正确。一千兆 RAM 可以让您存储超过“几百万”的条目。

回复收藏 0 原文

~没有更多了~

关于作者

空城之時有危險

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

可变大小键的 B 树实现

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

可变大小键的 B 树实现

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。