对字符串调用 GetHashCode() 时获得重复值的概率

发布于 2024-12-13 01:04:58 字数 348 浏览 4 评论 0 原文

我想知道在 string 实例上调用 GetHashCode() 方法时获得重复值的概率。例如，根据这篇博文， blair 和brainless 在 x86 机器上具有相同的哈希码 (1758039503)。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

两仪 2024-12-20 01:04:58

大

（抱歉乔恩！）

短字符串之间发生哈希冲突的概率极大。给定一组仅由常见单词抽取的一万个不同的短字符串，该组中至少存在一次冲突的概率约为 1%。如果有八万根字符串，则至少发生一次碰撞的概率超过 50%。

有关显示集合大小和碰撞概率之间关系的图表，请参阅我关于该主题的文章：

https://learn.microsoft.com/en-us/archive/blogs/ericlippert/socks-birthdays-and-hash-collisions

回复收藏 0 原文

寄风 2024-12-20 01:04:58

小 - 如果您正在谈论任何两个任意不相等的字符串发生碰撞的机会。（当然，这取决于字符串的“任意性”程度 - 不同的上下文将使用不同的字符串。）

大 - 如果您谈论的是至少发生一次碰撞的可能性在一个大的任意字符串池中。小的个体概率无法与生日问题相比。

这就是您需要知道的全部内容。肯定存在会发生冲突的情况，并且必须给出只有 2³² 个可能的哈希码，并且字符串数量不止这些 - 因此 < a href="http://en.wikipedia.org/wiki/Pigeonhole_principle">鸽子洞原理证明至少一个哈希码必须有多个生成它的字符串。但是，您应该相信哈希值的设计是相当合理的。

您可以依赖它作为缩小特定字符串可能匹配范围的好方法。这将是一组不寻常的自然出现的字符串，会产生很多冲突 - 即使存在一些冲突，显然如果您可以缩小候选搜索集的范围从 50K 减少到不到 10 个字符串，这是一个相当大的胜利。但您不得依赖它作为任何字符串的唯一值。

请注意，.NET 4 中使用的算法在 x86 和 x64 之间有所不同，因此该示例可能在这两个平台上都无效。