小数据大数据集多重索引：空间效率低下？

发布于 2024-11-25 16:23:37 字数 550 浏览 2 评论 0原文

我根本不是数据库设计方面的专家，所以在尝试用 CS 术语翻译之前，我会用简单的语言表达我的需求：我正在尝试找到快速迭代大型子集的正确方法（例如约 100Mo 的双）的数据，在一个可能非常大的数据集中（比如几个 Go）。我有基本上由 4 个整数（键）和值组成的对象，一个简单的结构（1 个双精度型 1 个短型）。由于我的键只能接受少量值（数百个），因此我认为将数据保存为树是有意义的（键的深度为 1，值是叶子，至少在我的幼稚视图中很像 XML 的 XPath）。

我希望能够根据键值/这些键值的函数迭代叶子的子集。过滤的组合键会有所不同。我认为这就是所谓的横向搜索？
因此，为了避免比较相同键的 n 次，理想情况下，我需要通过键的每个排列对数据结构进行索引（12 种可能性： !4/!2 ）。这似乎就是 boost::multi_index 的用途，但是，除非我忽略了这一点，否则这样做的方式实际上是构建这 12 个树结构，将指向我的值节点的指针存储为树叶。我想考虑到我的值与键相比的尺寸很小，这将是极其空间效率低下的。

任何有关我应该使用的设计/数据结构的建议，或有关这些主题的简明教育材料的指示，将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

农村范ル 2024-12-02 16:23:37

使用 Boost.MultiIndex，您不需要多达 12 个索引（顺便说一句，4 个元素的排列数量是 4！= 24，而不是 12）来覆盖包含 4 个键的特定子集的所有查询：感谢使用复合键，只要稍加巧妙，6 个索引就足够了。

巧合的是，几年前我在博客中提供了一个示例，展示了如何以几乎完全符合您的特定场景的方式执行此操作：

使用 Boost.MultiIndex 进行多属性查询

提供了源代码，您只需稍加修改即可满足您的需求。同一博客中的一系列文章也提供了该构造的理论依据：

这背后的数学原理并不简单，您可能想安全地忽略它：不过，如果您需要帮助理解它，请毫不犹豫地对博客文章发表评论。

这个容器使用了多少内存？在典型的 32 位计算机中，对象的大小为 4*sizeof(int)+sizeof(double)+sizeof(short)+padding，通常会产生 32 个字节（在 Win32 上使用 Visual Studio 检查）。 Boost.MultiIndex 为每个索引添加了 3 个字（12 字节）的开销，因此对于容器的每个元素，您将获得

32+6*12 = 104 字节 + 填充。

我再次在 Win32 上使用 Visual Studio 检查，获得的大小是每个元素 128 字节。如果你有 10 亿 (10^9) 个元素，那么 32 位是不够的：使用 64 位操作系统很可能会使对象的大小增加一倍，因此所需的内存将达到 256 GB，这是相当强大的野兽（不知道你是否使用像这样巨大的东西。）