当前位置：文江博客话题详情

md5 校验和误报的可能性有多大？

发布于 2024-10-16 11:30:06 字数 291 浏览 8 评论 0原文

我有一个客户正在内部分发大型二进制文件。他们还传递文件的 md5 校验和，并在将文件用作其工作流程的一部分之前，显然会根据校验和验证文件。

然而，他们声称“经常”遇到文件损坏的情况，而 md5 仍然表明该文件是好的。

我读到的所有内容都表明这种情况不太可能发生。

这听起来有可能吗？另一种哈希算法会提供更好的结果吗？我是否应该真正关注流程问题，例如他们声称检查校验和，但实际上并没有这样做？

注意，我还不知道“经常”在这种情况下意味着什么。他们每天处理数百个文件。我不知道这是每天、每月还是每年都会发生。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

摘星┃星的人 2024-10-23 11:30:06

MD5 是一个 128 位加密哈希函数，因此不同的消息应该在 128 位空间上分布得很好。这意味着两个文件（不包括专门为击败 MD5 而构建的文件）应该有 1 in 2^128 的冲突机会。换句话说，如果每纳秒比较一对文件，那么这种情况就不会发生。

回复收藏 0 原文

写给空气的情书 2024-10-23 11:30:06

如果文件损坏，则损坏的文件与未损坏的文件具有相同 md5 校验和的概率为 1:2^128。换句话说，这种情况几乎“经常”发生，而且从未发生过。从天文数字上看，您的客户误报实际发生的情况的可能性更大（就像他们计算了错误的哈希值一样）

回复收藏 0 原文

北笙凉宸 2024-10-23 11:30:06

听起来像是他们使用 MD5 时的错误（也许他们 MD5 处理了错误的文件），或者是他们正在使用的库中的错误。例如，我曾经使用过的一个较旧的 MD5 程序无法处理超过 2GB 的文件。

这个问题表明，平均而言，您会遇到碰撞如果每秒生成 60 亿个文件，则平均每 100 年生成一次，所以这是不太可能的。

回复收藏 0 原文

太阳公公是暖光 2024-10-23 11:30:06

这听起来有可能吗？

不会，导致相同校验和的随机损坏的几率为 2¹²⁸ 中的 1 或 3.40 × 10³⁸。这个数字让十亿分之一 (10⁹) 的机会相形见绌。

另一种哈希算法会提供更好的结果吗？

可能不会。虽然 MD5 在抗碰撞攻击方面已被破坏，但它可以很好地抵抗随机损坏，并且是一种流行的使用标准。

我是否应该真正考虑流程问题，例如他们声称检查校验和，但实际上并没有这样做？

可能，但请考虑所有可能的问题点：

MD5 生成之前
文件损坏 MD5 验证之后文件损坏。
MD5 程序或支持框架有错误
操作员滥用（无意，例如在错误的文件上运行 MD5 程序）
操作员滥用（故意，例如跳过验证步骤）

如果是最后一个，那么最后一个想法是在包装器中分发文件强制操作员解包文件的格式，但解包会在提取过程中进行验证。我想像 Gzip 或 7-Zip 这样的东西支持大文件并可能关闭压缩（我不知道那些会这样做）。

回复收藏 0 原文

挖鼻大婶 2024-10-23 11:30:06

有各种各样的原因导致二进制文件无法分发，或者即使分发，也会出现损坏（防火墙、大小限制、病毒插入等）。发送二进制文件时，您应该始终对文件进行加密（即使是低级加密也比不加密好），以帮助保护数据完整性。

回复收藏 0 原文

夜声 2024-10-23 11:30:06

无法抗拒粗略计算：

有 2^128 种可能的 MD5 哈希值或 c。 3.4 x 10^38（即赔率 3400 亿、10 亿、10 亿、10 亿、10 亿、10 亿、10 亿、10 亿、10 亿、10 亿对 1）。让我们称这个数字为“M”

如果第 1 到 (K-1) 个匹配没有匹配，则第 K 个哈希匹配的概率为 (1-(K-1)/M)，因为我们已经有了 K-1 个唯一哈希M 的值。

并且 P（N 个文件哈希中没有重复项）= 产品 [k = 1...N] (1-(k-1)/M)。当 N^2 <<< 时M 那么这近似于 1 - 1/2 N^2 / M 并且 P(一个或多个重复项) = 1/2 N^2 / M 当 1/2 N^2 是成对匹配数的近似值时必须生成的哈希值

因此，假设我们拍摄地球上每个人的照片（78 亿，或略低于 2^33），那么需要进行 304 亿亿次成对比较（略低于 2^65））。

这意味着匹配 MD5 哈希的机会（假设完全均匀分布）仍然是 2^65/2^128 = 2^-63 或 10,000,000,000,000,000,000 分之一。

MD5 对于非敌对环境来说是一个相当不错的哈希函数，这意味着您的客户出现错误匹配的可能性远低于他们的首席执行官发疯并烧毁数据中心的可能性，更不用说他们真正担心的事情了关于。

回复收藏 0 原文

~没有更多了~

关于作者

说谎友

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

md5 校验和误报的可能性有多大？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

md5 校验和误报的可能性有多大？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。