适用于大量条目的最佳 C 语言键/值数据库

发布于 2024-12-01 16:07:21 字数 376 浏览 9 评论 0原文

我正在尝试创建一个键/值数据库，其中包含 300,000,000 个键/值对，每个键/值对 8 字节（键和值均包含）。要求是有一个非常快的键/值机制，每秒可以查询大约 500,000 个条目。

我尝试了 BDB、Tokyo DB、Kyoto DB 和 levelDB，当涉及到这种大小的数据库时，它们的性能都非常糟糕。（他们的表现甚至还没有接近 1,000,000 个条目的基准率）。

由于硬件限制（32 位软件），我无法将数据库存储在内存中，因此 memcached 是不可能的。

我也无法使用外部服务器软件（只有数据库模块），并且根本不需要多用户支持。当然，服务器软件无论如何也无法容纳来自单个端点的每秒 500,000 个查询，因此排除了 Redis、Tokyo tyrant 等。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

孤独陪着我 2024-12-08 16:07:21

大卫·塞格劳，在这里。 Berkeley DB 产品经理。

BDB 性能最常见的问题是人们没有配置缓存大小，将其保留为默认值，该值相当小。第二个最常见的问题是，人们编写的应用程序行为模拟器进行随机查找（即使他们的应用程序并不是真正完全随机），这迫使他们从缓存中读取数据。然后，随机 I/O 会引导他们得出有关性能的结论，这些结论不是基于模拟应用程序，而是基于实际应用程序行为。

根据您的描述，我不确定您是否遇到了这些常见问题，或者可能完全遇到了其他问题。无论如何，我们的经验是 Berkeley DB 的性能和扩展性往往都非常好。我们很乐意帮助您识别任何瓶颈并提高 BDB 应用程序吞吐量。获得这方面帮助的最佳地点是 BDB 论坛：http://forums.oracle .com/forums/forum.jspa?forumID=271。当您在论坛上发帖时，显示应用程序代码的关键查询段以及显示数据库环境性能的 db_stat 输出会很有用。

您可能希望使用 BDB HA/复制来平衡多个服务器之间的查询负载。每秒 50 万次查询可能需要更大的多核服务器或一系列较小的复制服务器。我们经常看到 BDB 应用程序在商用硬件上每秒执行 100-200K 查询，但在 32 位应用程序中每秒对 300M 记录执行 500K 查询可能需要一些仔细的调整。我建议重点优化在单个节点上运行的 BDB 应用程序的查询性能，然后使用 HA 在多个系统之间分配该负载，以扩展查询/秒吞吐量。

我希望这有帮助。

祝您申请顺利。

问候，

戴夫

回复收藏 0 原文

那一片橙海， 2024-12-08 16:07:21

我找到了一个很好的基准比较网页，它基本上比较了 5 个知名数据库：

LevelDB
京都 TreeDB
SQLite3
MDB
BerkeleyDB

在做出选择之前您应该检查一下： http://symas.com/mdb/microbench/。

PS - 我知道您已经测试过它们，但您还应该考虑到每个测试的配置都没有像基准测试所显示的那样进行优化。

回复收藏 0 原文

好菇凉咱不稀罕他 2024-12-08 16:07:21

尝试 ZooLib。

它提供了一个带有 C++ API 的数据库，该数据库最初是为教育机构的高性能多媒体数据库（称为知识论坛）编写的。它可以同时处理 3,000 个 Mac 和 Windows 客户端（也是用 ZooLib 编写的 - 它是一个跨平台应用程序框架），所有这些客户端都可以传输音频、视频并处理由教师和学生创建的图形丰富的文档。

它有两个低级 API，用于实际将字节写入磁盘。一种速度非常快，但不具有容错性。另一个是容错的，但速度没那么快。

我是 ZooLib 的开发人员之一，但我对 ZooLib 的数据库组件没有太多经验。也没有文档 - 您必须阅读源代码才能弄清楚它是如何工作的。这是我自己的错，因为我十多年前就承担了编写 ZooLib 手册的工作，但才刚刚开始。

ZooLib 的主要开发人员 Andy Green 是一个很棒的人，总是很乐意回答问题。我建议您在 SourceForge 上订阅 ZooLib 的开发人员列表，然后在列表上询问如何使用该数据库。安迪很可能会亲自回答您，但也许我们的其他开发人员之一会回答您。

ZooLib 是在 MIT 许可下开源的，并且是真正高质量、成熟的代码。自 1990 年左右以来，它一直在持续开发，并于 2000 年被置于开源状态。

不要担心我们自 2003 年以来就没有发布 tarball。我们可能应该发布，因为这导致许多潜在用户认为它是已被废弃，但它被非常积极地使用和维护。只需从 Subversion 获取源代码即可。

安迪是一名个体经营顾问。如果您没有时间但有预算，他会很好地编写定制的、可维护的高质量 C++ 代码来满足您的需求。

如果它是 ZooLib 中除数据库以外的任何部分，我也会这样做，正如我所说，我对此不熟悉。我自己用 ZooLib 的 UI 框架做了很多咨询工作。

回复收藏 0 原文

简美 2024-12-08 16:07:21

300M * 8 字节 = 2.4GB。这可能适合内存（如果操作系统不将地址空间限制为 31 位）
由于您还需要处理溢出，（通过重新哈希方案或通过链接）内存变得更加紧张，对于线性探测，您可能需要 > 400M 插槽，链接会将项目的大小增加到 12 字节（位调整可能会增加一些位）。这将使总占用空间增加到大约 3.6 GB。

无论如何，您都需要一个特制的内核，将其自己的“保留”地址空间限制为几百 MB。并非不可能，但却是一项重大手术。在所有情况下，转义到基于磁盘的东西都太慢了。（PAE 可以拯救您，但这很棘手）

恕我直言，您最好的选择是迁移到 64 位平台。

回复收藏 0 原文