BLOB 存储 - 100+ GB、MySQL、SQLite 或 PostgreSQL + Python

发布于 2024-07-04 22:54:11 字数 268 浏览 8 评论 0原文

我有一个简单的应用程序的想法，它将监视一组文件夹，索引它找到的任何文件。图形用户界面将允许我快速标记新文件并将它们移动到单个数据库中进行存储，并且还提供了一种通过标签、名称、文件类型和日期查询数据库的简单机制。目前我在几个可移动硬盘上有大约 100+ GB 的文件，数据库至少有那么大。如果可能的话，我想支持嵌入式二进制和文本文档的全文搜索。这将是一个单用户应用程序。

并不是想引发数据库战争，但是哪种开源数据库最适合我？我很确定 SQLLite 不可行，但我可能是错的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

和影子一齐双人舞 2024-07-11 22:54:15

为什么你要浪费时间来模拟文件系统应该能够处理的东西？更多存储+ grep 就是你的答案。

回复收藏 0 原文

呆 2024-07-11 22:54:14

几乎任何一个都可以工作（即使 SQLLite 不适合在并发多用户环境中使用，这可能是一个问题......），因为您不想索引文件的实际内容。

唯一的限制因素是给定数据库的最大“数据包”大小（按数据包我指的是查询/响应）。通常这些限制约为 2MB，这意味着您的文件必须小于 2MB。当然，您可以增加此限制，但整个过程效率相当低，因为例如要插入文件，您必须：

将整个文件读入内存
在查询中转换文件（这通常意味着对它进行十六进制编码 - 从而加倍）从一开始的大小）
执行生成的查询（这本身意味着 - 对于数据库 - 它必须解析它）

我会使用一个简单的数据库和使用命名约定存储的关联文件，这使得它们很容易找到（对于基于主键的示例）。当然这种设计并不“纯粹”，但它的性能会好很多，而且也更容易使用。

回复收藏 0 原文

香草可樂 2024-07-11 22:54:14

我总是讨厌回答“不”，但你最好使用 Lucene 之类的东西建立索引（PyLucene）。几乎总是建议将路径存储在数据库中而不是文件内容中。

除此之外，这些数据库引擎都不会将 LOB 存储在单独的数据空间中（它们将嵌入表的数据空间中），因此这些引擎中的任何一个都应该表现得几乎相同（除了 sqllite）。您需要迁移到 Informix、DB2、SQLServer 或其他服务器才能获得这种二进制对象处理。

回复收藏 0 原文

日久见人心 2024-07-11 22:54:13

我的偏好是将文档与元数据一起存储。原因之一是关系完整性。如果没有数据库代理的操作，您将无法轻松移动文件或修改文件。我确信我可以处理这些问题，但它并不像我想要的那么干净，而且我的经验是，现在大多数供应商都可以处理数据库中的大量二进制数据。我想我想知道 PostgreSQL 或 MySQL 在这些领域是否有明显的优势，我主要熟悉 Oracle。无论如何，感谢您的回复，如果数据库知道外部文件在哪里，如果我愿意的话，以后也可以很容易地将文件引入。问题的另一个方面是，使用 Python 时是否更容易使用任一数据库。我猜那是洗的。

回复收藏 0 原文