当前位置：文江博客话题详情

MD5 等哈希函数有何独特之处？

发布于 2024-08-24 17:52:14 字数 244 浏览 11 评论 0原文

我知道 MD5 存在一些冲突，但这更多的是关于哈希函数的高级问题。

如果 MD5 将任意字符串哈希为 32 位十六进制值，则根据 Pigeonhole原则当然，这不可能是唯一的，因为唯一的任意字符串比唯一的 32 位十六进制值还要多。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

睫毛上残留的泪 2024-08-31 17:52:15

正如其他人回答的那样，哈希函数根据定义不能保证返回唯一值，因为无限数量的输入有固定数量的哈希值。它们的关键品质是它们的碰撞不可预测。

换句话说，它们不容易逆转——因此，虽然可能有许多不同的输入会产生相同的哈希结果（“冲突”），但找到其中任何两个在计算上是不可行的。

回复收藏 0 原文

套路撩心 2024-08-31 17:52:14

您是对的，它不能保证唯一性，但是 32 位十六进制值 (16^32) 中大约有 3.402823669209387e+38 个不同的值。这意味着，假设算法背后的数学给出了良好的分布，那么出现重复的可能性非常小。您必须记住，当您考虑如何使用它时，它是可能重复的。 MD5 通常用于确定某些内容是否已更改（即，它是校验和）。修改某些内容并产生相同的 MD5 校验和的可能性是极其不可能的。

编辑：（鉴于最近的新闻：SHA1 哈希值）
上面的答案仍然成立，但您不应该期望 MD5 哈希充当任何类型的针对操纵的安全检查。 SHA-1 哈希发生冲突的可能性降低了 2^32（超过 40 亿）倍，并且已经证明可以设计一个输入来产生相同的值。（这在很久以前就已经针对 MD5 进行了演示）。如果您希望确保没有人恶意修改某些内容以产生相同的哈希值，那么现在您需要 SHA-2 来提供可靠的保证。

另一方面，如果不是在安全检查上下文中，MD5 仍然有其用处。

可以认为 SHA-2 哈希值的计算成本足够低，无论如何你都应该使用它。

回复收藏 0 原文

撩人痒 2024-08-31 17:52:14

你是绝对正确的。但哈希值并不是“唯一”，而是“足够唯一”。

回复收藏 0 原文

七分※倦醒 2024-08-31 17:52:14

正如其他人指出的那样，像 MD5 这样的哈希函数的目标是提供一种轻松检查两个对象是否等效的方法，而无需知道它们最初是什么（密码）或对其进行整体比较（大文件）。

假设您有一个对象 O 及其哈希值 h_O。您获得另一个对象P并希望检查它是否等于O。这可以是密码，也可以是您下载的文件（在这种情况下，您将没有 O，而是带有 P 的哈希值 h_O，最有可能）。首先，对 P 进行哈希处理以获得 h_P。

现在有两种可能性：

h_O 和 h_P 不同。这必定意味着 O 和 P 是不同的，因为对 2 个值/对象使用相同的哈希必须产生相同的值。哈希值是确定性的。 没有漏报。
h_O 和 h_P 相等。正如您所说，由于鸽洞原理，这可能意味着不同的对象散列为相同的值，并且可能需要采取进一步的操作。
a.因为可能性的数量如此之高，如果您对哈希函数有信心，那么可能足以说“嗯，碰撞的可能性是二分之一¹²⁸（理想情况），所以我们可以例如，假设O = P，如果您限制字符的长度和复杂性，这可能适用于密码，这就是为什么您会看到存储在数据库中的密码哈希值。密码本身。
b.您可能认为哈希值相等并不意味着对象相等，因此直接比较 O 和 P。 您可能出现误报。

因此，虽然您可能出现误报匹配，但不会出现误报。根据您的应用程序，以及您希望对象始终相等还是始终不同，散列可能是多余的步骤。

回复收藏 0 原文

乖不如嘢 2024-08-31 17:52:14

根据定义的性质，加密单向哈希函数不是单射。
就哈希函数而言，“唯一”毫无意义。这些函数是通过其他属性来衡量的，这些属性使创建给定哈希的原像变得困难，从而影响了它们的强度。例如，我们可能关心改变原像中的单个位会影响多少图像位。我们可能关心进行暴力攻击（找到给定哈希图像的原始图像）有多困难。我们可能关心找到碰撞有多难：找到两个具有相同哈希图像的原像，用于生日攻击。

回复收藏 0 原文

遥远的绿洲 2024-08-31 17:52:14

虽然如果要散列的值比生成的散列长得多，则可能会发生冲突，但对于大多数用途而言，冲突数量仍然足够低（有 2¹²⁸ 可能的哈希总数，因此两个随机字符串产生相同哈希的几率理论上接近十分之一³⁸）。

MD5 主要是为了进行完整性检查而创建的，因此它对最小的更改非常敏感。输入的微小修改将导致截然不同的输出。这就是为什么仅根据哈希值很难猜测密码的原因。

虽然哈希本身是不可逆的，但仍然可以通过纯粹的蛮力找到可能的输入值。这就是为什么如果您使用 MD5 存储密码哈希值，则应始终确保添加盐：如果您在输入字符串中包含盐，则匹配的输入字符串必须包含完全相同的盐才能得到相同的结果。输出字符串，否则与输出匹配的原始输入字符串在自动加盐后将无法匹配（即您不能只是“反转”MD5 并使用它来登录，因为反转的 MD5 哈希很可能不是加盐的）最初导致创建哈希的字符串）。

因此，哈希值不是唯一的，但可以通过身份验证机制使其足够唯一（这是密码限制代替加盐的一个有点合理的论点：产生相同哈希值的字符串集可能包含许多不重复的字符串）不遵守密码限制，因此通过暴力破解哈希值更加困难——显然盐仍然是一个好主意）。

更大的散列意味着同一输入集有更大的可能散列集，因此重叠的可能性更低，但在处理能力充分提高到使暴力破解 MD5 变得微不足道之前，对于大多数用途来说，它仍然是一个不错的选择。

回复收藏 0 原文