好的哈希函数？（32位太小，64位太大）

发布于 2024-10-30 17:53:34 字数 273 浏览 7 评论 0原文

我需要生成一个哈希值，用于 Java 中数十亿条记录的唯一性。问题是，我只有 16 个数字可以玩。在研究这个问题时，我发现了 32 位哈希算法，它返回 Java 整数。但这太小了，因为它的范围只有+/-20亿，而且还有更多的记录。我无法使用 64 位哈希，因为这会给我返回太大的数值（+/ 4 quintillion，或 19 位数字）。问题是，我正在处理一个遗留系统，它迫使我使用 16 位数字的静态密钥长度。

建议？我知道没有哈希函数可以保证唯一性，但我需要一个好的哈希函数来满足这些限制。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

强辩 2024-11-06 17:53:34

如果限制为 16 位十进制数字，则您的密钥空间包含 10^16 个值。
即使您找到了在数据集上提供均匀分布的哈希值，由于生日悖论，您也会在大约 10^8 条数据上有 50% 的几率发生冲突，这比数十亿条记录要小一个数量级。

这意味着您不能单独使用任何类型的哈希并依赖唯一性。

一个简单的解决方案是使用全局计数器。如果全局计数器不可行，则可以使用具有预分配范围的计数器。例如，6 个最高有效数字表示固定数据源索引，10 个最低有效数字包含由该数据源维护的单调计数器。

回复收藏 0 原文

溇涏 2024-11-06 17:53:34

如果生成的哈希太大，您可以使用密钥空间最大值对其进行修改以使其适合。

myhash = hash64bitvalue % 10^16

If your generated hash is too large you can just mod it with your keyspace max to make it fit.

myhash = hash64bitvalue % 10^16

回复收藏 0 原文

等数载，海棠开 2024-11-06 17:53:34

那么你的限制是53位？

据我了解，哈希码中的位顺序数不会影响其值（位顺序和位值完全独立）。因此，您可以获得 64 位哈希函数并仅使用其中的最后 53 位。并且您必须为此使用二进制运算（ hash64 & (1<<54 - 1) ）而不是算术。

回复收藏 0 原文

初熏 2024-11-06 17:53:34

您不必以人类可读的形式（十六进制，正如您所说）存储哈希值。只需将 64 位长数据类型（由 64 位哈希函数生成）存储在数据库中，该数据类型只有 8 个字节。而不是你被吓跑的 19 个字节。

如果这不是解决方案，请改进遗留系统。

编辑：等等！

64 位：2⁶⁴ =

18446744073709551616

16 个十六进制数字：16¹⁶ =

18446744073709551616

完全适合！因此，用十六进制表示您的 64 位哈希值，就可以了。

You don't have to store your hashes in a human readable form (hex, as you said). Just store the 64-bit long datatype (generated by a 64-bit hash function) in your database, which is only 8 bytes. And not the 19 bytes of which you were scared off.

If that isn't a solution, improve the legacy system.

Edit: Wait!

64-bit: 2⁶⁴ =