存储任意数据库表的数据结构

发布于 2024-09-13 09:16:37 字数 404 浏览 8 评论 0原文

我想设计一个 JVM 数据结构（Java/Scala），可用于表示和存储任意关系数据库表的内容。数据结构应该是快速的（GC 不太密集，缓存友好）并且内存效率高，因此 RAM 中可以容纳更大的表。

一种节省内存的解决方案是将每一列单独存储在一个原始数组中，但我担心缓存友好性，因为同一行中的项目不存储在一起。具有 N 列的行将导致 N 次缓存未命中，无论列有多窄。

另一种解决方案是将每一行存储在对象数组中，其中每个元素代表一个字段，并在检索时转换为正确的类型，但这需要以装箱形式存储数字类型，因此内存效率不高。而且它的缓存效率可能也不是那么高。

另一种解决方案是将每行的数据布局到字节数组中，就像真实数据库序列化其行一样，仅使用所需的字节数。这是缓存友好且内存高效的，但我担心每次访问时序列化/反序列化的成本。

最好的办法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

墨落成白 2024-09-20 09:16:37

第四种解决方案是将每行的数据存储为字符串而不是字节数组。这可以避免大多数情况下的序列化成本 - 前提是大多数数据都是字符串。

这也将更容易调试并且独立于平台。当然它有一些限制：例如浮点数不能按原样表示，但可以以类似于 SQL DECIMAL 格式的形式存储。

任何解决方案都将是一种权衡。

编辑但是，我更喜欢针对您的情况的字节数组解决方案：每行一个字节数组。对于固定大小的行来说，这应该是最适合缓存的。但是，您还应该为可变大小的行提供解决方案。低级语言似乎更适合这项任务，在 C 中可以定义两种格式：固定大小的行，其中表元数据包含列偏移量（例如，第 1 列：字节 0..31，第 2 列：字节 32..127等），以及第二个可变大小行格式，其中行本身包含列大小（例如，字节 1..3 包含大小，后面的字节数包含数据，然后另外 4 个字节包含大小，后面的数据等等）。

回复收藏 0 原文