我应该读取多少个字符串字符才能获得良好的哈希值？

发布于 2024-11-27 13:40:47 字数 239 浏览 8 评论 0原文

这里有一个小难题：如果您使用像 CRC-64 这样的哈希算法，那么需要读取字符串中的多少字节才能计算出好的哈希值？假设您的所有字符串至少有 2 KB 长，那么使用整个字符串来计算缓存似乎是一种浪费或资源，但您认为多少个字符就足够了？由于 8 个 ASCII 字符等于 64 位，就足够了吗？使用超过 8 个 ASCII 字符不是毫无意义吗？我想知道你对此的看法。

更新：对于“好的哈希”，我的意思是通过使用更多字节来计算哈希冲突的可能性不会减少。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

弄潮 2024-12-04 13:40:47

如果您使用的 CRC-64 超过 8 个字节或更少，则使用 CRC-64 没有意义：只需“按原样”使用 8 个字节。除非输入比预期输出长，否则 CRC 没有任何附加值。

作为一般规则，如果您的哈希函数的输出为 n 位，那么一旦累积了大约 2^n/2，冲突就会开始出现字符串。简而言之，如果您使用 64 位，那么在前 20 亿个字符串中不太可能遇到冲突。如果你得到 160 位或更多的输出，那么冲突实际上是不可行的（你遇到的冲突比 CPU 着火等硬件故障要少得多）。这假设哈希函数是“完美的”。如果您的哈希函数首先选择几个数据字节，那么您不选择的字节必然不会对哈希输出产生任何影响，因此您最好使用“好”字节——这完全取决于您要散列的字符串类型。这里没有一般规则。

我的建议是首先尝试在整个字符串上使用通用哈希函数；我通常推荐 MD4。 MD4是一种密码散列函数，它已经被彻底破解了，但是对于不涉及安全的问题，它仍然非常擅长混合数据元素（从密码学上来说，CRC比MD4更容易被破解）。据报道，MD4 在某些平台上实际上比 CRC-32 更快，因此您可以尝试一下。在基本 PC（我的 2.4 GHz Core2）上，MD4 实现的运行速度约为 700 MBytes/s，因此我们谈论的是每秒 35000 个散列 2 kB 字符串，这还不错。