数据库或其他存储和动态访问巨大二进制对象的方法

发布于 2024-12-23 06:21:10 字数 690 浏览 3 评论 0原文

我有一些大型（200 GB 是正常的）平面数据文件，我想将它们存储在某种数据库中，以便可以快速访问并以数据逻辑组织的直观方式进行访问。将其视为大量非常长的录音，其中每个录音的长度（样本）相同，并且可以被视为一行。其中一个文件通常包含大约 100,000 个录音，每个录音长度为 2,000,000 个样本。

将这些记录作为 BLOB 数据行存储在关系数据库中是很容易的，但在很多情况下，我只想将整个数据集的某些列（例如，样本 1,000-2,000）加载到内存中。最节省内存和时间的方法是什么？

如果您需要对我的数据的详细信息进行更多说明以便提出建议，请随时询问。

编辑：为了澄清数据维度...一个文件由：100,000 行（记录）x 2,000,000 列（样本）组成。我研究过的大多数关系数据库最多允许表中包含几百到几千行。话又说回来，我对面向对象的数据库了解不多，所以我想知道类似的东西是否会对这里有所帮助。当然，任何好的解决方案都是非常受欢迎的。谢谢。

编辑：为了澄清数据的用法...数据将只能由我将编写的自定义桌面/分布式服务器应用程序访问。每个数据“集”（到目前为止我将其称为 200 GB 文件）都有元数据（收集日期、过滤器、采样率、所有者等）。还有与每个记录相关的元数据（我希望它是表中的一行，这样我就可以为每个记录元数据添加列）。所有元数据都是一致的。即，如果某个录音存在特定的元数据，那么该文件中的所有录音也都存在该元数据。样本本身没有元数据。每个样本都是 8 位的普通二进制数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

べ映画 2024-12-30 06:21:10

数据库存储可能不适合大文件。是的，这是可以做到的。是的，它可以工作。但是数据库备份呢？文件内容可能不会经常更改 - 一旦添加，它们将保持不变。

我的建议是将文件存储在磁盘上，但创建一个基于数据库的索引。当您有 > 时，大多数文件系统都会变得暴躁或缓慢。文件夹/目录/等中有 10k 个文件。您的应用程序可以生成文件名并将元数据存储在数据库中，然后按磁盘上生成的名称进行组织。缺点是文件内容可能无法从名称中直接看出。但是，您可以轻松备份更改的文件，无需专门的数据库备份插件和复杂的分区、增量备份方案。此外，文件内的查找操作也变得更加简单（向前跳过、倒带等）。通常，文件系统对这些操作的支持比数据库更好。

回复收藏 0 原文

楠木可依 2024-12-30 06:21:10

我想知道是什么让您认为 RDBMS 仅限于数千行；没有理由会出现这种情况。

此外，如果您只知道想要的偏移量和长度，至少某些数据库（例如 Oracle）允许直接访问部分 LOB 数据，而无需加载完整的 LOB。因此，您可以拥有一个包含一些可搜索元数据的表，然后是 LOB 列，如果需要，还可以拥有一个包含 LOB 内容元数据的附加元数据表，以便您拥有某种关键字->(offset,length) 关系可用于 LOB 的部分加载。

在某种程度上与这里的另一篇文章相呼应，增量备份（您可能希望在这里拥有）对于数据库来说不太可行（好吧，可能是可能的，但至少根据我的经验往往会附加一个令人讨厌的价格标签）。

回复收藏 0 原文