当前位置：文江博客话题详情

使用一个 64 位数字唯一标识 URL

发布于 2024-07-26 23:44:30 字数 339 浏览 13 评论 0原文

这基本上是一个数学问题，但与编程非常相关：如果我有 10 亿个包含 URL 的字符串，并且我取每个字符串的 MD5 哈希值的前 64 位，我应该期望什么样的冲突频率？

如果我只有 1 亿个 URL，答案会如何变化？

在我看来，碰撞是极其罕见的，但这些事情往往令人困惑。

使用 MD5 以外的其他东西会更好吗？请注意，我不是在寻找安全性，只是在寻找一个良好的快速哈希函数。此外，MySQL 的本机支持也很好。

编辑：不完全重复

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谜兔 2024-08-02 23:44:30

如果 MD5 的前 64 位构成具有理想分布的散列，那么生日悖论仍然意味着每 2^32 个 URL 都会发生冲突。换句话说，冲突的概率是 URL 的数量除以 4,294,967,296。有关详细信息，请参阅 http://en.wikipedia.org/wiki/Birthday_paradox#Cast_as_a_collision_problem。

仅仅丢弃 MD5 中的一半位我会感到不舒服；最好对高位和低位 64 位字进行异或，以便让它们有机会混合。话又说回来，MD5 绝不是快速或安全的，所以我根本不会为它操心。如果您想要令人眼花缭乱的速度和良好的分发，但又不想假装安全，您可以尝试 64 位版本的 MurmurHash。有关详细信息和代码，请参阅 http://en.wikipedia.org/wiki/MurmurHash。

回复收藏 0 原文

安静被遗忘 2024-08-02 23:44:30

您已将其标记为“生日悖论”，我想您已经知道答案。

P(Collision) = 1 - (2^64)!/((2^64)^n (1 - n)!)

在你的例子中，n 是 10 亿。

使用 MD5 以外的其他方法会更好一些，因为 MD5 存在实际共谋问题。

You have tagged this as "birthday-paradox", I think you know the answer already.

P(Collision) = 1 - (2^64)!/((2^64)^n (1 - n)!)

where n is 1 billion in your case.

You will be a bit better using something other then MD5, because MD5 have pratical collusion problem.

回复收藏 0 原文

世界和平 2024-08-02 23:44:30

据我所知，您需要一个满足以下要求的哈希函数，将

任意长度的字符串哈希为 64 位值
- 保持良好心态——避免碰撞
- 不一定是单向的（不需要安全性）
- 最好是快速 - 这是非安全应用程序的必要特征

哈希函数调查可能有助于深入找到最适合您的函数。
我建议从这里尝试多个函数，并根据您可能的输入集来描述它们（选择您认为会看到的数十亿个 URL）。

实际上，您可以为您的测试 URL 列表生成类似此测试调查的另一列来表征并从中进行选择您可能想要检查的现有或任何新的哈希函数（该表中的更多行）。他们有 MSVC++ 源代码（参考 ZIP 链接< /a>）。

更改哈希函数以适合您的输出宽度（64 位）将为您的应用程序提供更准确的表征。

回复收藏 0 原文

情绪操控生活 2024-08-02 23:44:30

如果您有 2^n 种哈希可能性，则当您有 2^(n/2) 项时，发生冲突的可能性超过 50%。

例如，如果您的哈希值是 64 位，则您有 2^64 种哈希可能性，如果集合中有 2^32 个项目，则发生冲突的可能性为 50%。

回复收藏 0 原文

吹梦到西洲 2024-08-02 23:44:30

仅使用哈希值，总是有可能发生冲突。而且您事先并不知道您的网址列表中是否会发生一次或两次冲突，甚至数百次或数千次。

概率仍然只是概率。就像掷骰子 10 次或 100 次，得到全 6 的机会是多少？说概率很低，但还是有可能发生。甚至可能连续很多次......

因此，虽然生日悖论向您展示了如何计算概率，您仍然需要决定碰撞是否可以接受。

...碰撞是可以接受的，哈希仍然是正确的方法；找到一个 64 位哈希算法，而不是依赖于具有良好分布的“half-a-MD5”。（虽然它可能有......）

回复收藏 0 原文

~没有更多了~

关于作者

朕就是辣么酷

暂无简介

文章

25 人气

关注发私信

西西弗的石头怪

文章 0 评论 0

关注

5397313

文章 0 评论 0

关注

烟沫凡尘

文章 0 评论 0

关注

一个破名字

文章 0 评论 0

关注

萌︼了一个春

文章 0 评论 0

关注

当爱已成负担

文章 0 评论 0

友情链接

文江博客

使用一个 64 位数字唯一标识 URL

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签