如何公开大量 XML 文档（~2M）以供离线查询（xpath）？

发布于 2025-01-02 04:54:20 字数 339 浏览 1 评论 0原文

我在 16GB 的文件系统空间上有不到 200 万个 XML 文档。它们都是有效的并且共享一个 DTD。它们的大小大致相同（均由同一实验室信息系统生成）。

我正在寻找一种简单的方法让单个用户查询整个 2M 文档语料库。我不想将其公开给网络甚至多个 LAN 用户；但是，我希望它能够向我的内联网公开一些查询接口。我对查询语言很灵活，但我希望能够进行临时查询。我希望它至少具有类似的性能，并且我愿意根据需要分配额外的磁盘空间来容纳索引。

一个可行的解决方案必须在具有 8GB RAM 的单个四核 Linux 机器上表现不佳，新硬件不是一个选择。

我找到了 e-Xist DB，但它似乎没有太多活动，而且演示站点也已关闭。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

对不⑦ 2025-01-09 04:54:20

我会按这个顺序尝试：

BaseX （有很好的 GUI。我发现的最有前途的开源 XML 数据库。BSD 许可证)
Sedna （在 BaseX 之前我最喜欢的。Apache 2.0 许可证）
Berkeley DB-XML（是嵌入式平面文件数据库。Sleepycat 许可证)
eXist （eXist 一直是一场黑客灾难。GNU LGPL 许可证）

我的预感是伯克利将会是最快的，但 BaseX 和 Sedna 都可以通过网络访问，并且 BaseX 将是最容易开始使用和查询的。 Sedna 还有一个模式感知存储系统，这可能对您描述的情况有益。如果您有商业用途，伯克利的 sleepycat 许可证可能对您来说是一种负担 - 请仔细查看。

回复收藏 0 原文

那片花海 2025-01-09 04:54:20

我的偏好是使用全文搜索引擎创建倒排索引。以下是我的偏好。我建议你花时间研究一下这 3.

Solr （Web界面查询，容易上手）
ElasticSearch（分布式，易于上手）
Raw Lucene（1 和 2 在幕后使用 Lucene）

为什么使用全文搜索引擎？

更快的
突出显示
Faceting
允许自由格式搜索（使用您可以使用的 xml 数据库）将针对 xpath 或 xquery 等工作）
事实证明，即使使用大量
基于文件的文件，搜索速度也更快

回复收藏 0 原文

一百个冬季 2025-01-09 04:54:20

您肯定需要一个 XML 数据库。我认为新兴的领导者是商业产品的 MarkLogic 和开源产品的 eXist。其他人可能有其他看法。掌握新的数据库产品始终是一个陡峭的学习曲线（数据库的功能越强大，需要学习的东西就越多）。但 eXist 肯定可以破解它，不要在第一个障碍时放弃。

回复收藏 0 原文

朮生 2025-01-09 04:54:20

我同意米歇尔·凯的观点。如果您想要开源，请使用 eXist-db；如果您想要商业，请使用 MarkLogic。我为美国国会图书馆 NDIIPP 计划做了一个项目，经过广泛的 ATAM 分析后，我们选择 eXist，因为其活跃的用户社区和广泛的使用，优于其他系统。如果您有疑问，请在 MarkMail 上搜索。我想你会发现 eXist 比任何其他系统都有更活跃的讨论。

该报告在线约有 350 页：

http://www.mnhs .org/preserve/records/legislativerecords/pilot.htm

回复收藏 0 原文

~没有更多了~