Enum.hashCode() 背后的原因是什么？

发布于 2024-10-15 19:58:50 字数 1338 浏览 2 评论 0原文

Enum 类中的 hashCode() 方法是最终方法，定义为 super.hashCode()，这意味着它返回一个基于实例地址的数字，该数字是来自程序员 POV 的随机数。

将其定义为 ordinal() ^ getClass().getName().hashCode() 将在不同的 JVM 中具有确定性。它甚至会工作得更好一点，因为最低有效位将“尽可能多地改变”，例如，对于包含最多 16 个元素的枚举和大小为 16 的 HashMap，肯定不会发生冲突（当然，使用 EnumMap 更好，但有时不可能，例如没有 ConcurrentEnumMap）。根据当前的定义，你没有这样的保证，不是吗？

答案摘要

使用 Object.hashCode() 与上面的更好的 hashCode 相比，如下所示：

PROS
- 简单
对比
- 速度
- 更多冲突（对于任何大小的 HashMap）
- 非确定性，它会传播到其他对象，使它们无法用于
  - 确定性模拟
  - ETag 计算
  - 根据HashSet迭代顺序寻找错误

，我个人更喜欢更好的 hashCode，但恕我直言，除了速度之外，没有任何原因很重要。

更新

我对速度感到好奇，并编写了一个基准令人惊讶的结果。对于每个类单个字段的价格，您可以获得确定性哈希码，其速度几乎四倍。将哈希码存储在每个字段中会更快，尽管可以忽略不计。

标准哈希码速度并不快的原因是，随着对象的移动，它不可能是对象的地址GC。

更新 2

一般来说，hashCode 性能正在发生一些奇怪的事情。当我理解它们时，仍然存在一个悬而未决的问题，为什么 System.identityHashCode（从对象头读取）比访问普通对象字段慢得多。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

请远离我 2024-10-22 19:58:50

我能想象使用 Object 的 hashCode() 并将其最终确定的唯一原因是让我问这个问题。

首先，您不应该依赖这种机制在 JVM 之间共享对象。这根本不是受支持的用例。当您序列化/反序列化时，您应该依赖您自己的比较机制，或者仅将结果与您自己的 JVM 中的对象进行“比较”。

让枚举 hashCode 实现为 Objects 哈希码（基于身份）的原因是，在一个 JVM 中，每个枚举对象只有一个实例。这足以确保这种实现是有意义且正确的。

你可能会这样争论“嘿，字符串和原语的包装器（长整型，整数，...）都有明确定义的、确定性的 hashCode 规范！为什么枚举没有？有吗？”，好吧，首先，您可以有多个代表同一字符串的不同字符串引用，这意味着使用 super.hashCode 将是一个错误，因此这些类必然需要他们自己的 hashCode 实现。对于这些核心类，让它们具有明确定义的确定性哈希代码是有意义的。

为什么他们选择这样解决问题？

好吧，看看hashCode 实现的要求。主要关注的是确保每个对象都应该返回一个不同的哈希码（除非它与另一个对象相等）。基于身份的方法非常有效并保证了这一点，而您的建议却没有。这一要求显然比任何关于放松连载等的“便利奖金”都要强。

回复收藏 0 原文

陌若浮生 2024-10-22 19:58:50

我认为他们最终决定的原因是为了避免开发人员通过重写次优（甚至不正确）的 hashCode 来搬起石头砸自己的脚。

关于所选择的实现：它在 JVM 上不稳定，但速度非常快，可以避免冲突，并且不需要在枚举中添加额外的字段。考虑到枚举类的实例数量通常较少，以及 equals 方法的速度，如果您的算法的 HashMap 查找时间比当前算法更长，我不会感到惊讶，因为它的额外复杂性。

回复收藏 0 原文

自由如风 2024-10-22 19:58:50

我也问过同样的问题，因为没看到这个。为什么在 Enum 中 hashCode() 引用对象 hashCode() 实现，而不是 ordinal() 函数？

在定义我自己的哈希函数时，对于依赖枚举 hashCode 作为组合之一的对象，我遇到了一个问题。当检查函数返回的对象集中的值时，我按顺序检查它们，我希望它们是相同的，因为我自己定义了 hashCode，所以我希望元素落在相同的节点上在树上，但是由于 enum 返回的 hashCode 从头到尾都在变化，所以这个假设是错误的，测试偶尔会失败。

因此，当我弄清楚问题后，我开始使用序数。 我不确定每个为其对象编写 hashCode 的人都意识到了这一点。

所以基本上，你不能在依赖枚举的同时定义自己的确定性 hashCode hashCode，你需要使用序数来代替

PS 这对于评论来说太大了:)

回复收藏 0 原文

梦里泪两行 2024-10-22 19:58:50

JVM强制对于枚举常量，内存中只能存在一个对象。如果不通过反射，不通过序列化/反序列化跨网络，您不可能在单个虚拟机中得到同一枚举常量的两个不同实例对象。

话虽如此，由于它是表示该常量的唯一对象，因此它的 hascode 是它的地址并不重要，因为没有其他对象可以同时占用相同的地址空间。它保证是唯一的并且是唯一的。 “确定性”（在同一个虚拟机中，在内存中，所有对象都将具有相同的引用，无论它是什么）。

回复收藏 0 原文

愿与i 2024-10-22 19:58:50

不需要哈希码在 JVM 之间具有确定性，如果是确定性也不会获得任何优势。如果你依赖这个事实，那么你就错误地使用了它们。

由于每个枚举值仅存在一个实例，因此 Object.hashcode() 保证永远不会发生冲突，是良好的代码重用并且速度非常快。

如果通过身份定义相等性，则 Object.hashcode() 将始终提供最佳性能。

其他哈希码的确定性只是其实现的副作用。由于它们的相等性通常由字段值定义，因此混合非确定性值会浪费时间。

回复收藏 0 原文

灵芸 2024-10-22 19:58:50

只要我们不能将枚举对象¹发送到不同的JVM，我认为没有理由对枚举（以及一般对象）提出这样的要求

¹我认为很清楚 - 对象是类的实例。 序列化对象是一个字节序列，通常存储在字节数组中。我正在谈论一个对象。

回复收藏 0 原文

蓦然回首 2024-10-22 19:58:50

我可以想象它这样实现的另一个原因是因为要求 hashCode() 和 equals() 保持一致，并且为了 Enum 的设计目标，它们应该易于使用和编译时常量（以使用它们是“case”常量）。这也使得将枚举实例与“==”进行比较是合法的，并且您根本不希望“等于”的行为与枚举的“==”不同。这再次将 hashCode 与默认的 Object.hashCode() 基于引用的行为联系起来。
如前所述，我也不期望 equals() 和 hashCode() 将来自不同 JVM 的两个枚举常量视为相等。在谈论序列化时：例如，类型为枚举的字段，Java 中默认的二进制序列化程序有一个特殊的行为，即仅序列化常量的名称，并且在反序列化时，将重新创建对反序列化 JVM 中相应枚举值的引用。 JAXB 和其他基于 XML 的序列化机制的工作方式类似。所以：不用担心

回复收藏 0 原文

~没有更多了~