当前位置：文江博客话题详情

为什么哈希表的平均访问时间恒定？

发布于 2024-11-05 02:24:21 字数 91 浏览 0 评论 0原文

我不明白这个解释，它说如果 n 是哈希表中的元素数量，m 是桶的总数，那么只有当 n 与 theta(n) 成比例时，哈希表的平均访问时间才会恒定。为什么一定要成比例？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

音盲 2024-11-12 02:24:21

实际上m应该与n成正比。否则，例如，您可能只有 1 个桶，它就像一个未排序的集合。

更准确地说，如果m与n成正比，即m = c * n，那么每个桶中的项目数量将为n/m = 1/c，这是一个常数。进入任何存储桶都是 O(1) 操作（只需计算哈希码），然后对存储桶的搜索是常量顺序（您可以对存储桶中的项目进行线性搜索，这将是一个常量）。

因此，如果 m = c * n，则算法的阶数为 O(1)。

举个相反的例子，假设我们有一个大小为 tableSize 的固定大小的表。那么每个桶中的预期项目数为 n/tableSize，它是 n 的线性函数。对于一棵树来说，通过存储桶进行的任何类型的搜索最多都是 O(log(n)) （我假设你没有在存储桶中粘贴另一个哈希表，或者我们对该哈希表有相同的参数），所以在这种情况下，它不会是 O(1)。

回复收藏 0 原文

雄赳赳气昂昂 2024-11-12 02:24:21

严格来说，哈希表访问的平均情况时间复杂度实际上为 Ω(n^1/3)。信息的传播速度不能超过光速，而光速是一个常数。由于空间具有三个维度，因此存储 n 位数据需要某些数据位于距 CPU 大约 n^1/3 的位置。

更多详细信息在我的博客。

回复收藏 0 原文

白况 2024-11-12 02:24:21

冲突的可能性更高，因此必须扫描具有相同散列键的项目列表的发生率也更高。

回复收藏 0 原文

假扮的天使 2024-11-12 02:24:21

访问时间是恒定的，因为访问基于哈希值的计算，然后不断查找以找到适当的存储桶。假设哈希函数将项目均匀分布在存储桶中，则访问任何单个项目所需的时间将等于访问其他项目的时间，无论 n 是多少。

但恒定并不一定意味着持续低。平均访问时间与哈希函数的均匀分布和桶的数量有关。如果您有数千个项目均匀分布在少数存储桶中，那么您会很快找到存储桶，但随后会循环遍历存储桶中的大量项目。如果存储桶与项目的比例很好，但散列函数不好，将更多的项目放入某些存储桶而不是其他存储桶中，则较大存储桶中的项目的访问时间将比其他存储桶的访问时间慢。

回复收藏 0 原文

给妤﹃绝世温柔 2024-11-12 02:24:21

一个大小合理的哈希表，其中有足够的槽来存储每个元素，并且有足够的额外空间，哈希函数将完成大部分选择槽的工作，并且在不同元素具有相同哈希的情况下很少发生冲突。一个非常拥挤的哈希表会产生很多冲突，并且会降级为基本上线性搜索，其中几乎每次查找都将是具有相同哈希值的错误项，并且您必须继续搜索正确的项（哈希表）一旦选择了第一个槽，lookup 仍然必须检查密钥，因为它正在查找的密钥在存储时可能会发生冲突）。

决定命中碰撞率的正是项目数与哈希大小的比率（即，随机选择的槽被填充的百分比机会）。

回复收藏 0 原文

~没有更多了~