Cassandra = 密钥的内存/编码足迹（哈希/字节[]=>十六进制=>UTF16=>字节[]）

发布于 2024-11-07 01:33:31 字数 878 浏览 2 评论 0原文

我试图理解使用 MD5 哈希作为 Cassandra 密钥的含义，就“内存/存储消耗”而言：

我的内容的 MD5 哈希（在 Java 中）= byte[] 是 16 个字节长。（16 字节来自通用 md5 的维基百科，我不确定 java 实现是否也返回 16 字节）
对该值进行十六进制编码，以便能够以人类可读的格式打印它 => 1byte 变成 2hex 值
我必须将每个十六进制值表示为 java => 中的“字符” result=“两个字符串字符值”（例如“FF”是长度/大小=2的字符串。）
Java使用UTF-16 =>因此每个“字符串字符”都用两个字节进行编码。 “FF”需要 2x2 字节？
结论=>字节格式的 MD5 哈希值是 16 个字节，但表示为 java 十六进制 utf16 字符串会消耗 16x2x2 = 64Bytes（在内存中）！？！？这是正确的吗？

使用它作为行键，Cassandra 中的存储消耗是多少？

如果我直接使用哈希函数中的字节数组，我会假设它在 Cassandra 中消耗 16 个字节？

但是，如果我使用十六进制字符串表示形式（如上所述），cassandra 可以将其“压缩”为 16 个字节还是在 cassandra 中也需要 64 个字节？我假设 Cassandra 中为 64 字节，这是正确的吗？

您使用什么类型的钥匙？您是直接使用哈希函数的输出，还是先编码为十六进制字符串，然后使用该字符串？（在 MySQL 中，每当我使用哈希键时，我总是使用它的十六进制字符串表示形式......所以它可以在 MySQL 工具和整个应用程序中直接读取。但我现在意识到它浪费了存储空间？？）

也许我的想法完全不正确，那么请解释一下我错在哪里。

非常感谢！延斯