更快的 MD5 替代品？

发布于 2024-07-09 19:23:01 字数 749 浏览 5 评论 0原文

我正在开发一个程序，可以在整个驱动器中搜索给定的文件。目前，我计算已知文件的 MD5 哈希值，然后递归扫描所有文件，寻找匹配项。

唯一的问题是 MD5 在处理大文件时速度非常慢。是否有一种更快的替代方案可供我使用，同时保留极小的误报概率？

所有代码均采用 C# 语言。

谢谢。

更新

我读到，即使 MD5 也可以非常快，磁盘 I/O 应该是限制因素。这让我相信我的代码可能不是最优的。这种方法有什么问题吗？

        MD5 md5 = MD5.Create();
        StringBuilder sb = new StringBuilder();
        try
        {
            using (FileStream fs = File.Open(fileName, FileMode.Open, FileAccess.Read))
            {
                foreach (byte b in md5.ComputeHash(fs))
                    sb.Append(b.ToString("X2"));
            }
            return sb.ToString();
        }
        catch (Exception)
        {
            return "";
        }

原文

I'm working on a program that searches entire drives for a given file. At the moment, I calculate an MD5 hash for the known file and then scan all files recursively, looking for a match.

The only problem is that MD5 is painfully slow on large files. Is there a faster alternative that I can use while retaining a very small probablity of false positives?

All code is in C#.

Thank you.

Update

I've read that even MD5 can be pretty quick and that disk I/O should be the limiting factor. That leads me to believe that my code might not be optimal. Are there any problems with this approach?

        MD5 md5 = MD5.Create();
        StringBuilder sb = new StringBuilder();
        try
        {
            using (FileStream fs = File.Open(fileName, FileMode.Open, FileAccess.Read))
            {
                foreach (byte b in md5.ComputeHash(fs))
                    sb.Append(b.ToString("X2"));
            }
            return sb.ToString();
        }
        catch (Exception)
        {
            return "";
        }

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

攀登最高峰 2024-07-16 19:23:01

我希望您仅在文件大小已经匹配时才检查 MD5 匹配。

另一种优化是对前 1K（或其他任意但相当小的数字）进行快速校验和，并在处理整个文件之前确保它们匹配。

当然，所有这些都假设您只是在寻找特定文件的匹配/不匹配决策。

回复收藏 0 原文

≈。彩虹 2024-07-16 19:23:01

无论加密要求如何，都存在哈希冲突的可能性，因此无法使用哈希函数来保证两个文件相同。

我不久前编写了类似的代码，通过首先索引所有文件并丢弃任何具有不同大小的文件，我可以运行得相当快。然后对剩余条目执行快速哈希比较（针对每个文件的一部分）（事实证明，此步骤的比较字节不太有用 - 许多文件类型具有公共标头，这些标头在文件开头具有相同的字节）。然后使用 MD5 检查此阶段后留下的所有文件，如果 MD5 匹配，最后对整个文件进行字节比较，以确保内容相同。

回复收藏 0 原文

一个人的旅程 2024-07-16 19:23:01

只是线性读取文件？读取整个文件、计算 md5 哈希值，然后比较哈希值似乎毫无意义。

按顺序读取文件（一次读取几个字节）将允许您在读取（例如 4 个字节）后丢弃绝大多数文件。而且您可以节省计算哈希函数的所有处理开销，而在您的情况下，该函数不会为您提供任何信息。

如果您已经拥有驱动器中所有文件的哈希值，则比较它们是有意义的，但如果您必须动态计算它们，则哈希值似乎没有任何优势。

我在这里错过了什么吗？在这种情况下，散列会给你带来什么？

回复收藏 0 原文

凌乱心跳 2024-07-16 19:23:01

首先考虑真正的瓶颈是什么：哈希函数本身还是磁盘访问速度？如果你受到磁盘的限制，改变哈希算法不会给你带来太多好处。根据您的描述，我暗示您总是扫描整个磁盘以查找匹配项 - 考虑首先构建索引，然后仅将给定的哈希与索引匹配，这会快得多。

回复收藏 0 原文

多情癖 2024-07-16 19:23:01

使用 MD5 比较文件有一个小问题：已知有一对文件不同，但具有相同 MD5。

这意味着您可以使用 MD5 来判断文件是否不同（如果 MD5 不同，则文件一定不同），但不能使用 MD5 来判断文件是否相等< /em> （如果文件相等，则 MD5 必须相同，但如果 MD5 相等，则文件可能相等也可能不相等）。

您应该使用尚未被破坏的哈希函数（如 SHA-1），或者（如 @SoapBox 提到的）仅使用 MD5 作为查找候选者进行更深入比较的快速方法。

参考文献：

http://www.win.tue.nl/hashclash/SoftIntCodeSign/

回复收藏 0 原文

分开我的手 2024-07-16 19:23:01

使用 MD5CryptoServiceProvider 和 BufferedStream

        using (FileStream stream = File.OpenRead(filePath))
        {
            using (var bufferedStream = new BufferedStream(stream, 1024 * 32))
            {
                var sha = new MD5CryptoServiceProvider();
                byte[] checksum = sha.ComputeHash(bufferedStream);
                return BitConverter.ToString(checksum).Replace("-", String.Empty);
            }
        }

Use MD5CryptoServiceProvider and BufferedStream

        using (FileStream stream = File.OpenRead(filePath))
        {
            using (var bufferedStream = new BufferedStream(stream, 1024 * 32))
            {
                var sha = new MD5CryptoServiceProvider();
                byte[] checksum = sha.ComputeHash(bufferedStream);
                return BitConverter.ToString(checksum).Replace("-", String.Empty);
            }
        }

回复收藏 0 原文

~没有更多了~