当前位置：文江博客话题详情

确定文件身份的算法

发布于 2024-07-11 08:13:06 字数 792 浏览 11 评论 0原文

对于一个开源项目，我正在文件系统之上编写一个抽象层。

该层允许我将元数据和关系附加到每个文件。

我希望该层能够优雅地处理文件重命名，并在文件被重命名/移动或复制时维护元数据。

为此，我需要一种计算文件身份的机制。显而易见的解决方案是计算每个文件的 SHA1 哈希值，然后根据该哈希值分配元数据。但是……这确实很昂贵，尤其是对于电影而言。

所以，我一直在考虑一种算法，虽然不是 100% 正确，但在绝大多数情况下都是正确的，而且成本低廉。

一种这样的算法可能是使用文件大小和该文件的字节样本来计算哈希值。

我应该为样本选择哪些字节？如何保持计算成本低廉且相当准确？我知道这里需要权衡，但性能至关重要。用户将能够处理系统出错的情况。

我需要这个算法来处理非常大的文件（1GB+ 和小文件 5K）

编辑

我需要这个算法来处理 NTFS 和所有 SMB 共享（基于 Linux 或 Windows），我希望它支持将文件从一个位置复制到另一个位置的情况（存在 2 个物理副本被视为一个身份）。我什至可能考虑希望它在 MP3 被重新标记的情况下工作（物理文件已更改，因此我可能为每个文件类型提供一个身份提供程序）。

编辑2

相关问题：确定文件身份的算法（优化）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

策马西风 2024-07-18 08:13:06

分桶、多层比较应该是最快的，并且在您正在讨论的文件范围内可扩展。

第一级索引只是文件的长度。

第二级是哈希。低于一定大小，它是整个文件的哈希值。除此之外，是的，我同意你关于采样算法的想法。我认为可能影响采样速度的问题：

为了避免命中可能高度相似或相同的规则间隔的标头，您需要输入不合格的数字，例如：素数或连续素数的倍数。
避免可能最终遇到常规记录标头的步骤，因此，如果您从样本字节中获得相同的值，尽管位置不同，请尝试通过另一个素数调整步骤。
处理具有大量相同值的异常文件，因为它们是未编码的图像或只是填充了空值。

回复收藏 0 原文

撩发小公举 2024-07-18 08:13:06

执行第一个 128k，在 1mb 标记处执行另一个 128k，在 10mb 标记处执行另一个 128k，在 100mb 标记处执行另一个 128k，在 1000mb 标记处执行另一个 128k，等等。随着文件大小变大，您更有可能您将能够仅根据两个文件的大小来区分两个文件，您将散列越来越小的数据部分。 128k 以下的一切都得到了彻底处理。

回复收藏 0 原文

鸠魁 2024-07-18 08:13:06

不管你相信与否，我使用了文件的上次写入时间的刻度。它非常便宜，而且我仍然会看到不同文件之间的冲突。

回复收藏 0 原文

九厘米的零° 2024-07-18 08:13:06

如果您可以放弃 Linux 共享要求并将自己限制在 NTFS 上，那么 NTFS 备用数据流将是一个完美的解决方案，它：

不需要任何类型的散列；
重命名后仍然存在；并且
在移动后仍然存在（即使在不同的 NTFS 卷之间）。

您可以在此处阅读更多相关信息。基本上，您只需为流附加一个冒号和一个名称（例如“：meta”），然后写入您喜欢的任何内容。因此，如果您有目录“D:\Movies\Terminator”，请使用普通文件 I/O 将元数据写入“D:\Movies\Terminator:meta”。如果您想保存特定文件（而不是整个文件夹）的元数据，您可以执行相同的操作。

如果您希望将元数据存储在其他位置并且只能检测同一 NTFS 卷上的移动/重命名，则可以使用 GetFileInformationByHandle API 调用（请参阅 MSDN /en-us/library/aa364952(VS.85)）。 aspx) 来获取文件夹的唯一 ID（结合 VolumeSerialNumber 和 FileIndex 成员）。如果文件/文件夹在同一卷上移动/重命名，则此 ID 不会更改。

回复收藏 0 原文

美人骨 2024-07-18 08:13:06

存储一些随机整数 r_i 并查找字节 (r_i mod n)（其中 n 是文件的大小）怎么样？对于带有标头的文件，您可以先忽略它们，然后对剩余字节执行此过程。

如果您的文件实际上非常不同（不仅仅是某个地方的单个字节的差异，而是至少有 1% 的差异），那么随机选择的字节会注意到这一点。例如，字节差异为 1%，100 个随机字节将无法注意到的概率为 1/e ~ 37%；增加您查看的字节数会使该概率呈指数下降。

使用随机字节背后的想法是，它们本质上保证（从概率上来说）与任何其他字节序列一样好，除了它们不易受到其他序列的一些问题的影响（例如，碰巧查看文件格式的每个第 256 个字节，其中该字节需要为 0 或其他值）。

更多建议：

不要抓取字节，而是抓取更大的块来证明查找成本的合理性。
我建议始终查看文件的第一个块左右。由此，您可以确定文件类型等。（例如，您可以使用 file 程序。）
至少权衡整个文件的 CRC 之类的成本/收益。它不像真正的加密哈希函数那么昂贵，但仍然需要读取整个文件。好处是它会注意到单字节差异。

回复收藏 0 原文

攒眉千度 2024-07-18 08:13:06

好吧，首先您需要更深入地了解文件系统的工作原理。您将使用哪些文件系统？大多数文件系统支持硬链接和软链接等内容，因此“文件名”信息不一定存储在文件本身的元数据中。

实际上，这就是可堆叠分层文件系统的全部要点，您可以通过各种方式扩展它，例如支持压缩或加密。这就是“vnode”的全部内容。实际上，您可以通过多种方式来做到这一点。其中一些非常依赖于您正在查看的平台。这在使用 VFS 概念的 UNIX/Linux 系统上要简单得多。例如，您可以在 ext3 之上实现您自己的层或您拥有的层。

**
阅读您的编辑后，还有更多事情。正如前面提到的，文件系统已经使用索引节点之类的东西来做到这一点。散列可能是一个坏主意，不仅因为它成本高昂，而且因为两个或多个原像可以共享同一个图像；也就是说，两个完全不同的文件可以具有相同的哈希值。我认为您真正想做的是利用文件系统已经公开的元数据。当然，这在开源系统上会更简单。 :)

回复收藏 0 原文