当前位置：文江博客话题详情

performance indexing search bitarray bloom-filter

如果我有一个键数组 M 和一个目标数组 N，我如何在搜索之前验证 M[i] 是否存在于 N 中？

发布于 2024-09-07 03:11:57 字数 262 浏览 11 评论 0原文

正如标题所说，我正在尝试查找存在于大型常量数组 N 中的 M 元素。大多数时候，N 中不会存在 M 的元素，因此对 M 进行的绝大多数搜索都是浪费时间。

我正在寻找某种方法来创建索引以在对 M 进行全面搜索之前进行检查。类似于我的项目从 M 的每个元素的前几个字节创建一个位数组，据我了解，利用位级并行以快速搜索它。我完全不明白这是如何工作的。

那么我可以用什么技巧来减少不必要地搜索M的机会呢？

这是一个主要与语言无关的问题，但为了尽可能完整，我使用 C++。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

—━☆沉默づ 2024-09-14 03:11:57

您可能会想到 Bloom 过滤器，它正是用于这种情况。它们可能会给您误报，在这种情况下您必须在真实表中搜索，但在大多数情况下，如果您没有存储该项目，它们会从一开始就告诉您。

哈希表通常是存储的最佳选择；但是，如果您的密钥空间远远大于目标数量，则会出现大量哈希冲突，您必须检查存储在那里的目标是否确实是您正在查找的密钥。如果关键比较成本高昂，它很快就会成为一个因素。

回复收藏 0 原文

池予 2024-09-14 03:11:57

您可以使用 N 的值作为键构建一个哈希表。

然后你尝试访问hash[M[i]]，如果它返回一个值，那么它存在，即O(1)（不考虑冲突）。

回复收藏 0 原文

我不会写诗 2024-09-14 03:11:57

由于 N 是静态的，您可能会考虑为 N 创建一个 Perfect Hash 函数。这将使您的搜索保证 O(1) 时间。

有关算法的 CLR 书籍有一章介绍了这一点，上面的 wiki 页面上有您可能会觉得有用的链接。不过，它可能太复杂了，~~并且您可能很难找到有用的实现。~~。查看 Gperf 的实现。

不过，您始终可以使用预期 O(1) 的常用哈希表。

我想您正在存储一些您想要检索的额外信息，因为您知道它在那里？你如何存储这些？

您可能会发现 B-Tree 在这种情况下很有用（行业标准数据库通常使用其中的一些变体），甚至可以用作索引！因此，您进行搜索，如果找到它，您就拥有了指向它的数据/指针。您会在网络上找到许多这些的实现。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文