从 HDF5 文件中删除数据

发布于 2024-07-26 10:43:21 字数 670 浏览 6 评论 0原文

我有一个 HDF5 文件，其中包含复合元素的一维 (N x 1) 数据集 - 实际上它是一个时间序列。首先将数据离线收集到 HFD5 文件中，然后进行分析。在分析过程中，大多数数据变得无趣，只有某些部分是有趣的。由于数据集可能非常大，我想删除不感兴趣的元素，同时保留有趣的元素。例如，保留 500 个元素的数据集中的 0-100、200-300 和 350-400 元素，转储其余元素。但如何呢？

有人有如何使用 HDF5 实现这一点的经验吗？显然，可以通过多种方式完成，至少：（

明显的解决方案），创建一个新的新文件并在其中逐个元素写入必要的数据。然后删除旧文件。
或者，在旧文件中创建一个新的数据集，在其中写入必要的数据，使用 H5Gunlink() 取消旧数据集的链接，并通过 h5repack 运行该文件来消除未声明的可用空间。
或者，将现有数据集中的有趣元素向开头移动（例如，将元素 200-300 移动到位置 101-201，将元素 350-400 移动到位置 202-252）。然后调用H5Dset_extent()来减小数据集的大小。然后也许运行 h5repack 来释放可用空间。

由于即使删除了无趣的元素，文件也可能很大，所以我宁愿不重写它们（这会花费很长时间），但似乎需要实际释放可用空间。 HDF5 专家有什么提示吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

相权↑美人 2024-08-02 10:43:21

HDF5（至少是我习惯的版本，1.6.9）不允许删除。事实上，它确实如此，但它并没有释放已用空间，结果你仍然有一个巨大的文件。正如你所说，你可以使用h5repack，但这是浪费时间和资源。

您可以做的就是拥有一个包含布尔值的横向数据集，告诉您哪些值是“活动的”以及哪些值已被删除。这不会使文件变小，但至少它为您提供了一种快速执行删除的方法。

另一种方法是在数组上定义一个slab，复制相关数据，然后删除旧数组，或者始终通过slab访问数据，然后根据需要重新定义它（不过我从来没有这样做过，所以我不确定是否可能，但应该）

最后，您可以使用 hdf5 安装策略将数据集放在安装在根 hdf5 上的“附加”hdf5 文件中。当您想删除这些内容时，请将感兴趣的数据复制到另一个已安装的文件中，卸载旧文件并将其删除，然后在适当的位置重新安装新文件。此解决方案可能很混乱（因为您有多个文件），但它允许您释放空间并仅对数据树的子部分进行操作，而不是使用重新打包。

回复收藏 0 原文