对包含对象的大量小型 .mat 文件进行高效磁盘访问

发布于 2024-11-29 20:58:18 字数 523 浏览 8 评论 0原文

我正在尝试确定存储大量小型 .mat 文件（大约 9000 个大小从 2k 到 100k 不等的对象，总共大约半个 gig）的最佳方法。

典型的用例是我一次只需要从磁盘中提取少量（例如 10 个）文件。

我尝试过的方法：

方法 1：如果我单独保存每个文件，我会遇到性能问题（保存时间非常慢并且系统迟缓一段时间），因为 Windows 7 难以处理文件夹中的文件（我认为我的SSD 也经历了一段艰难的时期）。不过，最终的结果很好，我可以很快加载我需要的东西。这是使用“-v6”保存。

方法 2：如果我将所有文件保存在一个 .mat 文件中，然后仅加载我需要的变量，则访问速度非常慢（加载时间大约是加载整个文件所需时间的四分之三，变化很小，具体取决于保存的顺序）。这也使用“-v6”保存。

我知道我可以将文件分成许多文件夹，但这似乎是一个令人讨厌的黑客行为（并且无法解决SSD不喜欢写入许多小文件的问题），有更好的方法吗？

编辑：这些对象主要由双精度数据的数字矩阵和 uint32 标识符的伴随向量以及一堆小的标识属性（字符和数字）组成。

需要登录才能够评论，你可以免费注册一个本站的账号。

李不 2024-12-06 20:58:18

需要考虑的五个想法：

尝试存储在 HDF5 对象中 - 看看 http:// /www.mathworks.com/help/techdoc/ref/hdf5.html - 您可能会发现这可以解决您的所有问题。它还与许多其他系统（例如Python、Java、R）兼容。
方法 #2 的一种变体是将它们存储在一个或多个文件中，但关闭压缩。
不同的数据类型：也可能有一些对象的压缩或解压缩效果莫名其妙地糟糕。我在元胞数组或结构数组方面遇到过这样的问题。我最终找到了解决方法，但已经有一段时间了&我不记得如何重现这个特定问题。解决方案是使用不同的数据结构。
@SB 提出了一个数据库。如果其他方法都失败了，请尝试一下。我不喜欢构建外部依赖项和附加接口，但它应该可以工作（主要问题是，如果数据库开始抱怨或损坏您的数据，那么您将回到第 1 方）。为此，请考虑 SQLite，它不需要单独的服务器/客户端框架。 Matlab Central 上有一个可用的界面：http://www.mathworks。 com/matlabcentral/linkexchange/links/1549-matlab-sqlite
（新）考虑到对象小于 1GB，将整个集合复制到然后通过 RAM 磁盘进行访问。如果保存了任何内容，请记住从 RAM 磁盘进行复制（或包装 save 以将对象保存在两个位置）。

更新：OP 提到了自定义对象。有两种方法可以考虑对它们进行序列化：