当前位置：文江博客话题详情

寻找中等强度的哈希函数

发布于 2024-12-02 02:44:23 字数 227 浏览 0 评论 0原文

我有一组静态的约 35000 个唯一的 ASCII 文本字符串，每个字符串从 20 到 60 个字节。我想在其中引入一个唯一索引。由于各种原因，简单地编号是不可取的。

像 MD5 这样的加密级函数工作得很好，但我觉得这些有点矫枉过正了。这最终是为了一个移动项目，所以我对存储和 CPU 周期都有点贪婪。另一方面，我尝试过 32 位 Adler32 并遇到了冲突。

谁能想到一个好的哈希函数来生成 64 位值？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

烟柳画桥 2024-12-09 02:44:23

由于您拥有的字符串集是固定的，因此您应该尝试寻找完美的哈希函数，专门针对一组数据设计的哈希函数，以保证不会发生冲突。有许多工具可用于创建此类哈希函数，其中之一 gperf< /a> （不要与 gprof 混淆）我知道它是免费的。我强烈建议这样做。

如果您后来最终需要更改字符串集并想要一个轻量级、简单的哈希函数，您可能需要考虑使用 Rabin-Karp 滚动哈希函数。它可以使用 O(n) 次加法、乘法和取模来计算长度为 n 的字符串，并确保每两个字符串具有成对独立的哈希值。此外，您可能可以在大约半小时内对其进行编码，以测试它的性能是否比阿德勒校验和更好。

也就是说，如果您不尝试实现加密安全性，那么使用 MD5 等众所周知的哈希函数可能仍然是一个好主意。在这种情况下，即使是简单的 CRC32 也可能足够了。

回复收藏 0 原文

小猫一只 2024-12-09 02:44:23

鉴于从 64 位到 128 位，冲突的可能性大大降低，我强烈考虑使用 MD5128。

      Max entries before X chance of collision
Bits  10e−18   10e−15   10e−12   10e−9    10e−6    0.1%     1%       25%      50%      75%
----------------------------------------------------------------------------------------------
16    2        2        2        2        2        11       36       1.9e2    3.0e2    4.3e2
32    2        2        2        2.9      93       2.9e3    9.3e3    5.0e4    7.7e4    1.1e5
64    6.1      1.9e2    6.1e3    1.9e5    6.1e6    1.9e8    6.1e8    3.3e9    5.1e9    7.2e9
128   2.6e10   8.2e11   2.6e13   8.2e14   2.6e16   8.3e17   2.6e18   1.4e19   2.2e19   3.1e19
256   4.8e29   1.5e31   4.8e32   1.5e34   4.8e35   1.5e37   4.8e37   2.6e38   4.0e38   5.7e38
384   8.9e48   2.8e50   8.9e51   2.8e53   8.9e54   2.8e56   8.9e56   4.8e57   7.4e57   1.0e58
512   1.6e68   5.2e69   1.6e71   5.2e72   1.6e74   5.2e75   1.6e76   8.8e76   1.4e77   1.9e77

因此，对于 35000 (3.5e4) 字符串和 64 位哈希，这会为您提供 10e^-12 和 10e^-9 之间发生冲突的机会。这可能看起来不是很高，但是当涉及到散列时，十亿分之一是很容易达到的。

通过增加到 128 位，您的数值将大大低于 1 分之一（十亿 * 十亿）。

Given the fact that the likelihood of collisions decreases so much by going from 64 bit to 128 bit, I would strongly consider going with MD5128.

      Max entries before X chance of collision
Bits  10e−18   10e−15   10e−12   10e−9    10e−6    0.1%     1%       25%      50%      75%
----------------------------------------------------------------------------------------------
16    2        2        2        2        2        11       36       1.9e2    3.0e2    4.3e2
32    2        2        2        2.9      93       2.9e3    9.3e3    5.0e4    7.7e4    1.1e5
64    6.1      1.9e2    6.1e3    1.9e5    6.1e6    1.9e8    6.1e8    3.3e9    5.1e9    7.2e9
128   2.6e10   8.2e11   2.6e13   8.2e14   2.6e16   8.3e17   2.6e18   1.4e19   2.2e19   3.1e19
256   4.8e29   1.5e31   4.8e32   1.5e34   4.8e35   1.5e37   4.8e37   2.6e38   4.0e38   5.7e38
384   8.9e48   2.8e50   8.9e51   2.8e53   8.9e54   2.8e56   8.9e56   4.8e57   7.4e57   1.0e58
512   1.6e68   5.2e69   1.6e71   5.2e72   1.6e74   5.2e75   1.6e76   8.8e76   1.4e77   1.9e77

So with 35000 (3.5e4) string, with a 64 bit hash, this gives you something between a 10e^-12 and 10e^-9 chance to have a collision. This might not seem very high, but when it comes to hashing, 1 in a billion is pretty easy to hit.

By increasing to 128 bit, you go down to considerably less than 1 in a (billion * billion).

回复收藏 0 原文

梦言归人 2024-12-09 02:44:23

我认为您可以连接两个不同的 32 位哈希函数的值以获得 64 位哈希。

为了获得四个不同的哈希函数，我将使用一个预处理步骤，以某种不与哈希函数中的值交换的方式更改哈希函数的输入。一种方法是使用 256 字节查找表对字节重新编号。另一种可能是将每个字节乘以 X mod 257，用 -X mod 257 替换任何产生 256 = -1 mod 257 的内容，因为否则不会发生这种情况。请注意，(a*256 + b) mod 257 是 a + b mod 257。

回复收藏 0 原文

静水深流 2024-12-09 02:44:23

FWIW 有一个非安全哈希函数，具有很好的保证。举个例子，选择一个素数并以该数为模进行所有计算，这会给出一个数学域。将数据切成以素数为模的数字序列，并将它们视为多项式的系数。除了为哈希函数选择模数之外，您还可以选择一个数字 x mod 素数，然后计算该 x 处的多项式。理论上x是随机选择的。

如果两个消息的多项式之差为零，则这两个消息映射到相同的值，这意味着所选的 x 是该多项式的根。 N 次多项式最多有 N 个根，所以在你的情况下 - 如果你有很短的字符串并选择一个大的模数 - 这不是一个坏的保证。我认为如果您加密该计算的结果，我认为这是获得安全哈希函数的更快方法。我认为它应该比 MD5 更快，因为尽管对 128 位素数进行算术模运算很昂贵，但有人认为它比 MD5 便宜。

回复收藏 0 原文