当前位置：文江博客话题详情

XML file Riak Java

Bitcask 适合简单且高性能的文件存储吗？

发布于 2024-11-07 04:27:02 字数 861 浏览 10 评论 0原文

我正在寻找一种简单的方法来存储和检索数百万个 xml 文件。目前一切都是在文件系统中完成的，这存在一些性能问题。

我们的要求是：

能够在批处理过程中存储数百万个 xml 文件。 XML 文件可能有几兆大，大多数在 100KB 范围内。
通过 id 进行非常快速的随机查找（例如文档 URL）
可通过 Java 和 Perl 访问
可在最重要的 Linux 发行版和 Windows 上使用

我确实查看了几个 NoSQL 平台（例如 CouchDB、Riak 等），虽然这些系统看起来很棒，但它们看起来几乎有点矫枉过正：

不需要集群
不需要守护进程（“服务”）不需要
聪明的搜索所需的功能

在深入研究 Riak 后，我发现了 Bitcask（参见简介），这似乎正是我想要的。简介中描述的基础知识确实很有趣。但不幸的是，没有办法通过 java 访问 bitcask 存储库（或者有吗？）

所以我的问题归结为

以下假设是正确的：Bitcask 模型（仅附加写入，内存中密钥管理）是正确的方法要存储/检索数百万个文档，
是否有通过 Java 提供的 Bitcask 的可行替代方案？（我想到了 BerkleyDB...）
（对于 riak 专家）与“裸”Bitcask 相比，Riak 的实施/管理/资源开销是否更大？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

想你的星星会说话 2024-11-14 04:27:03

我认为 Bitcask 不会很好地适合您的用例。看起来 Bitcask 模型是为每个值的大小相对较小的用例而设计的。

问题出在Bitcask的数据文件合并过程中。这涉及将所有实时值从多个“旧数据文件”复制到“合并数据文件”中。如果您有数百万个值，每个值的大小都在 100Kb 左右，那么这将是一个疯狂的数据复制量。

请注意，上面假设 XML 文档的更新相对频繁。如果更新很少和/或者您可以处理大量的空间“浪费”，那么合并可能只需要很少进行，或者根本不需要进行。

回复收藏 0 原文

向地狱狂奔 2024-11-14 04:27:03

Bitcask 可能适合这种情况（较大的值），具体取决于是否存在大量覆盖。特别是，除非存在大量浪费的空间，否则没有理由合并文件，这种情况仅在新值与旧值具有相同键的情况下出现。

Bitcask 特别适合这种批量加载情况，因为它将按顺序将传入数据流直接写入磁盘。在大多数情况下，查找将进行一次查找，但如果存在任何时间局部性，文件缓存将帮助您。

我不确定 Java 版本/包装器的状态。

回复收藏 0 原文

~没有更多了~

关于作者

亽野灬性zι浪

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

牛↙奶布丁

文章 0 评论 0

COSO

文章 0 评论 0

落叶

文章 0 评论 0

暗地喜欢

文章 0 评论 0

qq_i8qOEG

文章 0 评论 0

qq_Wl4Sbi

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文