当前位置：文江博客话题详情

Hash algorithm primes

为什么哈希表的大小 127（质数）比 128 更好？

发布于 2024-11-05 15:16:25 字数 536 浏览 0 评论 0 原文

假设简单的统一散列，即任何给定值都同样会散列到散列的任何槽中。为什么使用 127 尺寸的桌子而不是 128 尺寸的桌子更好？我实在不明白2的幂有什么问题。或者说它实际上有何不同。

当使用除法时，我们通常会避免某些价值观米（桌子尺寸）。例如，米不应该是 2 的幂，因为如果 m = 2^p ，则 h(k) 就是 k 的 p 个最低位。

假设可能的元素仅在 1 到 10000 之间，并且我选择表大小为 128。127 怎样才能更好呢？所以 128 是 2^6 (1000000)，127 是 0111111。这有什么区别呢？对于 127，所有数字（散列后）仍将是 k 的 p 最低位。我是不是搞错了什么？

我正在寻找一些例子，因为我真的不明白为什么这很糟糕。预先非常感谢！

PS：我知道：哈希表：为什么大小应该是素数？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

起风了 2024-11-12 15:16:25

对于 127，所有数字（散列后）仍将是 k 的 p 最低位。

那是错误的（或者我误解了..）。 k % 127 取决于 k 的所有位。 k % 128 仅取决于最低 7 位。

编辑：

如果你的完美分布在 1 到 10,000 之间。 10,000 % 127 和 10,000 % 128 都将把它变成一个优秀的较小的分布。所有桶将包含 10,000 /128 = 78（或 79）个物品。

如果分布在 1 到 10,000 之间，则该分布存在偏差，因为 {x, 2x, 3x, ..} 出现的频率更高。然后，素数大小将提供更好的分布，如

因此，只要低位的分布足够好，切断高位（使用大小 128）就没有任何问题。但是，对于真实数据和设计糟糕的哈希函数，您将需要这些高位。

回复收藏 0 原文

九八野马 2024-11-12 15:16:25

划分方法

“当使用除法时，我们通常会避免m的某些值
（桌子尺寸）。例如，m 不应该是 2 的幂，因为如果 m =
2^p ，则 h(k) 只是 k< 的 p 最低位/代码>。”

--CLRS

了解为什么 m = 2^p 仅使用 k 的 p 最低位>，您必须首先了解模哈希函数 h(k) = k % m

密钥可以用商 q 和余数 来表示。 r

k = nq + r

选择商为 q = m 让我们可以将 k % m 简单地写为上式中的余数：

k % m = r = k - nm,  where r < m

因此，k % m 相当于连续减去 m 总共 n 次（直到 r ）：

k % m = k - m - m - ... - m,  until r < m

让我们尝试对键 k = 91 和 m = 2⁴ = 16

  91 = 0101 1011
- 16 = 0001 0000
----------------
  75 = 0100 1011
- 16 = 0001 0000
----------------
  59 = 0011 1011
- 16 = 0001 0000
----------------
  43 = 0010 1011
- 16 = 0001 0000
----------------
  27 = 0001 1011
- 16 = 0001 0000
----------------
  11 = 0000 1011

因此，91 % 2⁴ =。 11 只是 91 的二进制形式，仅保留 p=4 最低位

重要区别：

这特别适用于。哈希的除法。事实上，对于 CLRS 中所述的乘法来说，情况正好相反：

“乘法方法的一个优点是 m 的值并不重要......我们通常选择 [m] 为 2 的幂，因为这样我们就可以在大多数计算机上轻松实现该函数。”

Division Method

"When using the division method, we usually avoid certain values of m
(table size). For example, m should not be a power of 2, since if m =
2^p , then h(k) is just the p lowest-order bits of k."

--CLRS

To understand why m = 2^p uses only the p lowest bits of k, you must first understand the modulo hash function h(k) = k % m.

The key can be written in terms of a quotient q, and remainder r.

k = nq + r

Choosing the quotient to be q = m allows us to write k % m simply as the remainder in the above equation:

k % m = r = k - nm,  where r < m

Therefore, k % m is equivalent to continuously subtracting m a total of n times (until r < m):

k % m = k - m - m - ... - m,  until r < m

Lets try hashing the key k = 91 with m = 2⁴ = 16.

  91 = 0101 1011
- 16 = 0001 0000
----------------
  75 = 0100 1011
- 16 = 0001 0000
----------------
  59 = 0011 1011
- 16 = 0001 0000
----------------
  43 = 0010 1011
- 16 = 0001 0000
----------------
  27 = 0001 1011
- 16 = 0001 0000
----------------
  11 = 0000 1011

Thus, 91 % 2⁴ = 11 is just the binary form of 91 with only the p=4 lowest bits remaining.

Important Distinction:

This pertains specifically to the division method of hashing. In fact, the converse is true for the multiplication method as stated in CLRS:

"An advantage of the multiplication method is that the value of m is not critical... We typically choose [m] to be a power of 2 since we can then easily implement the function on most computers."

回复收藏 0 原文

淡紫姑娘！ 2024-11-12 15:16:25

尼克是对的，一般来说，哈希表的大小并不重要。然而，在使用开放寻址和双重散列的特殊情况下（其中探测之间的间隔由另一个散列函数计算），则素数大小的散列表最好确保所有哈希表条目均可用于新元素（如 Corkscreewe 提到的。）

回复收藏 0 原文

呆 2024-11-12 15:16:25

首先，这不是选择一个质数。对于您的示例，如果您知道数据集的范围为 1 到 10,000，那么选择 127 或 128 不会产生任何影响，因为这是一个糟糕的设计选择。

相反，最好为您的示例选择一个非常大的素数，例如 3967，以便每个数据都有自己唯一的键/值对。您只是想尽量减少碰撞。为您的示例选择 127 或 128 不会产生任何影响，因为所有 127/128 存储桶都将被均匀填充（这很糟糕，并且会降低插入和查找运行时间 O(1) 到 O(n)），而不是 3967 （这将保留 O(1) 运行时间）

编辑#4

“哈希函数”的设计是
有点黑艺术。它可以是
受数据影响很大
旨在存储在
基于哈希的数据结构，因此
关于合理散列的讨论
函数经常会误入一个
关于具体输入的讨论。

至于为什么素数是“首选”，人们有
考虑“对手”分析，
假设我设计了一个通用的
基于哈希的数据结构，如何
给定最差的输入它会执行吗
来自对手。由于表现
由哈希冲突决定
问题变成了哈希值是什么
使用最大限度地减少碰撞
最糟糕的情况。其中一个条件是
当输入始终是数字时
能被某个整数整除，比如 4。如果
你使用 N = 128 然后任何数字
能被 4 mod 128 整除仍然是
能被4整除，这意味着仅
桶 4、8、12... 永远都是
使用，导致利用率为 25%
数据结构。有效地启动
减少出现此类情况的可能性
场景发生，数字 > N.

回复收藏 0 原文

我爱人 2024-11-12 15:16:25

如果你有一个均匀分布的完美哈希函数，那么这并不重要。

回复收藏 0 原文

小梨窩很甜 2024-11-12 15:16:25

维基百科实际上对此有一个很好的总结：

http://en.wikipedia.org/wiki/Hash_table

他们指出，某些哈希函数被设计为仅适用于素数。本文解释了为什么二的幂不好：

http://www.concentric.net/ ~Ttwang/tech/primehash.htm

回复收藏 0 原文

小忆控 2024-11-12 15:16:25

我无法再证明这一点，尽管我记得在一百万年前的大学考试中必须这样做，但最佳哈希大小不仅仅是素数。您想要选择一个质数N，使得N = 4*M − 1（其中M也是一个整数）。

这使得 31 个桶的数量比 29 个更好。当 N 为 31 时，M 为 8，但当 N 时，没有整数 M N 是 29。

正如我所说，我不再记得证明这一点的数学。这是大约 25 年前 Udi 的妻子 Rachel Manber 教授的理论课程中的内容。

回复收藏 0 原文

吻风 2024-11-12 15:16:25

这是一种理解“k % 127 取决于 k 的所有位。k % 128 仅取决于 7 个最低位”的方法。 .
k % 128 等于 k & (2^7-1) 。例如： 129 % 128 = 1 ，二进制： 1000 0001 & 0111 1111 =0000 0001，(2^7-1)的任何高位都将为0，这意味着高位是多少并不重要。但此翻译对于不等于 2^n 的数字无效。
现在我们看一下十进制 129 % 127 是如何做除法的，先看最高位置 1，小于 127，然后得到下一项 2 与拳头组合得到 12，12 小于 127，然后组合9 表示 129 ，除以 127 余数为 2，我们可以用数学写成：129 = 1 * 127 +2 ，所以我们得到 2 [所有这些都称为 Long_division] ，在二进制除法中也是一样，现在，我们知道 k % 127 取决于 k 的所有位

回复收藏 0 原文

丶视觉 2024-11-12 15:16:25

我相信这与计算机的工作原理有关
以 2 为基数。以 10 为基数也会发生类似的情况。

...

选择一个足够大的非二次方数字将确保哈希函数确实是所有输入位的函数，而不是
其中的一个子集。

来自为什么哈希表应该使用素数大小.

回复收藏 0 原文

~没有更多了~

关于作者

您的好友蓝忘机已上羡

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

为什么哈希表的大小 127（质数）比 128 更好？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（9）

划分方法

Division Method

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

为什么哈希表的大小 127（质数）比 128 更好？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（9）

划分方法

Division Method

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。