为非常大的数据选择数据结构

发布于 2024-10-04 14:49:47 字数 230 浏览 10 评论 0原文

我有 x（百万）个正整数，它们的值可以尽可能大（+2,147,483,647）。假设它们是唯一的，那么为查找密集型程序存储它们的最佳方式是什么。

到目前为止，我想到使用二叉 AVL 树或哈希表，其中整数是映射数据（名称）的键。然而，我不确定我是否可以使用哈希表实现如此大的键和如此大的数量（除了容易发生冲突之外，这不会创建> 0.8的负载因子吗？）

我可以得到一些关于哪些数据的建议吗？结构可能适合我的情况

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

尘曦 2024-10-11 14:49:47

结构的选择在很大程度上取决于您有多少可用内存。我根据描述假设您需要查找但不循环它们、查找最近的或其他类似的操作。

最好的可能是桶式哈希表。通过将哈希冲突放入存储桶中并在存储桶中为键和值保留单独的数组，您既可以适当减小表的大小，又可以在搜索存储桶时利用 CPU 缓存加速。桶内的线性搜索甚至可能比二分搜索更快！

AVL 树非常适合读取密集型但非只读的数据集，并且需要有序枚举、查找最近的和类似的操作，但正确实现它们需要大量烦人的工作。不过，由于 CPU 缓存行为，您可能会使用 B 树获得更好的性能，尤其是忽略缓存的 B 树算法。

回复收藏 0 原文

绝影如岚 2024-10-11 14:49:47

你研究过B树吗？效率介于 log_m(n) 和 log_(m/2)(n) 之间，因此如果您选择 m 约为 8-10或者这样您应该能够将搜索深度保持在 10 以下。

回复收藏 0 原文

难忘№最初的完美 2024-10-11 14:49:47

Bit Vector ，如果数字存在则设置索引。您可以调整它以获得每个数字出现的次数。 Bentley 的Programming Pearls 中有一篇关于位向量的精彩专栏。

回复收藏 0 原文

幸福％小乖 2024-10-11 14:49:47

如果内存不是问题，地图可能是您最好的选择。映射的复杂度为 O(1)，这意味着当您增加要查找的项目数量时，查找值所需的时间是相同的。

一个映射，其中键是 int，值是名称。

回复收藏 0 原文

强者自强 2024-10-11 14:49:47

请先尝试哈希表。有一些变体可以容忍非常密集而不会显着减速（例如布伦特变体）。

如果您只需要存储 32 位整数而不是任何关联记录，请使用 set 而不是 map，就像大多数情况下的 hash_set C++ 库。它只使用 4 字节记录加上一些恒定的开销和一点松弛以避免 100%。在最坏的情况下，要处理“数百万”的数字，您需要几十兆字节。虽然很大，但没有什么是难以管理的。

如果您需要更紧凑，只需将它们排序存储在一个普通数组中，然后使用二分搜索来获取它们。这将是 O(log n) 而不是 O(1)，但对于“数百万”条记录，获取其中任何一条记录仍然只需二十几个步骤。在 C 语言中，有 bsearch()，它的速度是最快的。

编辑：刚刚在您的问题中看到您谈到了一些“映射数据（名称）”。这些名字独特吗？它们也必须存在于记忆中吗？如果是的话，它们肯定会主导内存需求。即便如此，如果名称是典型的英文单词，则大多数为 10 字节或更小，使总大小保持在“数十兆字节”；也许高达一百兆，仍然非常容易管理。