为什么东京暴君调整bnum后速度仍呈指数级下降？

发布于 2024-07-26 09:21:55 字数 308 浏览 11 评论 0原文

有人成功使用 Tokyo Cabinet / Tokyo Tyrant 处理大型数据集吗？我正在尝试上传维基百科数据源的子图。在达到大约 3000 万条记录后，我的速度呈指数级下降。 HDB 和 BDB 数据库都会发生这种情况。我将 bnum 调整为 HDB 情况下预期记录数的 2-4 倍，仅略微加快速度。我还将 xmsiz 设置为 1GB 左右，但最终我还是碰壁了。

看起来 Tokyo Tyrant 基本上是一个内存数据库，当你超过 xmsiz 或 RAM 时，你会得到一个几乎不可用的数据库。以前有其他人遇到过这个问题吗？你能解决吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

痴梦一场 2024-08-02 09:21:55

我想我可能已经破解了这个，而且我在其他地方没有看到这个解决方案。在 Linux 上，Tokyo 开始变慢通常有两个原因。让我们来看看常见的罪魁祸首。首先，如果您将 bnum 设置得太低，您希望它至少等于哈希中项目数量的一半。（最好更多。）其次，您要尝试将 xmsiz 设置为接近存储桶数组的大小。要获取存储桶数组的大小，只需创建一个具有正确 bnum 的空数据库，Tokyo 就会将该文件初始化为适当的大小。（例如，对于空数据库，bnum=200000000 大约为 1.5GB。）

但是现在，您会注意到它仍然减慢，尽管速度有点远。我们发现诀窍是关闭文件系统中的日志记录——出于某种原因，当哈希文件大小超过 2-3GB 时，日志记录（在 ext3 上）会激增。（我们意识到这一点的方式是 I/O 峰值与磁盘上文件的更改不对应，同时守护进程 CPU 突发 kjournald）

对于 Linux，只需卸载 ext3 分区并将其重新挂载为 ext2。构建您的数据库，然后重新挂载为 ext3。当日志记录被禁用时，我们可以毫无问题地构建 180M 键大小的数据库。

回复收藏 0 原文