当前位置：文江博客话题详情

如何在 Ruby 中找到最接近的二进制 bin 字符串对（汉明距离）而不出现 O^2 问题？

发布于 2024-12-24 21:29:48 字数 433 浏览 2 评论 0原文

我有一个 MongoDB，里面有大约 100 万个文档。这些文档都有一个表示 1 和 0 的 256 位 bin 的字符串，例如：

0110101010101010110101010101

理想情况下，我想查询近似二进制匹配。这意味着，如果两个文档具有以下编号。是的，这就是汉明距离。

Mongo 目前不支持此功能。所以，我被迫在应用层做这件事。

因此，考虑到这一点，我试图找到一种方法来避免在文档之间进行单独的汉明距离比较。这使得完成这项工作的时间基本上是不可能的。

我有很多内存。而且，在 ruby 中，似乎有一个很棒的 gem（算法）可以创建许多树，但我似乎无法使其中任何一个能够减少我需要进行的查询数量。

理想情况下，我希望进行 100 万次查询，找到几乎重复的字符串，并能够更新它们以反映这一点。

任何人的想法将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情何以堪。 2024-12-31 21:29:48

我最终将所有文档检索到内存中..（带有 id 和字符串的子集）。

然后，我使用 BK Tree 来比较字符串。

回复收藏 0 原文

执手闯天涯 2024-12-31 21:29:48

汉明距离定义了一个度量空间，因此您可以使用 O(n log n) 算法找到最近的一对点，这是典型的分而治之的性质。

然后，您可以重复应用此方法，直到获得“足够”对为止。

编辑：我现在看到维基百科实际上并没有给出算法，所以这是一个描述。

编辑2：如果没有距离小于n的配对，则可以修改算法以放弃。对于汉明距离的情况：只需计算您所处的递归级别。如果您在任何分支中都没有找到级别 n 的内容，则放弃（换句话说，永远不要输入 <代码>n + 1）。如果您使用的度量在一维上分割并不总是产生 1 的距离，则需要调整放弃的递归级别。

回复收藏 0 原文

悲喜皆因你 2024-12-31 21:29:48

据我所知，您有一个输入字符串 X 并且您想要在数据库中查询包含字符串字段 b 的文档，这样 X 之间的汉明距离 和 document.b 小于某个小数 d。

您可以在线性时间内完成此操作，只需扫描所有N=1M 文档并计算距离（每个文档需要少量固定时间）。由于你只想要距离小于d的文档，所以在d个不匹配字符之后可以放弃比较；如果大多数字符都匹配，则只需比较所有 256 个字符。

您可以尝试扫描少于 N 个文档，即获得比线性时间更好的。

令 ones(s) 为字符串 s 中 1 的数量。对于每个文档，将 ones(document.b) 存储为新的索引字段 ones_count。那么您只能查询 1 的数量足够接近 ones(X) 的文档，具体来说，ones(X) - d < = document.ones_count <= ones(X) + d。 Mongo 索引应该在这里启动。

如果您想找到集合中所有足够接近的对，请参阅@Philippe 的答案。