与Python模块recordLinkage索引时，是否有类似于大约相等数字值的阻止索引？

发布于 2025-01-30 18:56:57 字数 508 浏览 3 评论 0原文

我有一个音乐曲目的SQLite数据库，我想删除重复。我想根据标题和持续时间比较曲目。（我可能会尝试稍后将艺术家扔进去，但这是一个单独的桌子（每首曲目的多个艺术家），但是目前，我在持续时间（以秒为单位）有一个文本字段和一个整数字段。）该数据库中的重复曲目倾向于在彼此的5-10秒内具有相似的标题（或至少具有相似的前缀）和持续时间。

我正在尝试学习record链接以检测重复项，我的第一个尝试是制作完整的索引，使用Smith-Waterman比较标题并在此期间进行简单的线性数字比较。没有大惊喜；数据库太大了，无法执行完整的索引。我可以在持续时间上进行一个块索引，以限制为相同的持续时间，但是持续时间通常会熄灭几秒钟。我可以做分类的社区，但是如果*我正确理解这一点（*一个大“如果”），这意味着，如果我设置了一个窗口（例如）10，则每个曲目只能与10个最接近的曲目配对就持续时间而言，这几乎总是相同的持续时间，并且完全错过了持续但不完全相同的持续时间。在我看来，拥有“近似封锁索引”或类似的东西是自然而然的一步，但我似乎找不到任何简单的方法来做到这一点。

谁能在这里帮我吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

你与清晨阳光 2025-02-06 18:56:57

好的，在这里回答我自己的问题，因为我相信我已经弄清楚了我最初的问题中的误解。

我误解了分类的社区索引的工作原理。我在想，如果您将窗口设置为（例如）3，它将按密钥对所有记录进行排序，然后将每个记录与恰好的3个邻居记录（记录本身，上方的记录，以及下面的记录配对））。因此，如果有5个以上具有相同键值的记录，则实际上将导致对比块索引少。但是我现在很确定它实际上是首先按密钥对值进行分组，因此3的窗口将与所有记录配对具有完全相同的密钥值，所有具有下一个最高密钥值的记录，所有记录都带有所有记录下一个最低的钥匙值。

现在，这并不能使我完全我想要的东西，但它使我足够近了。如果我设置了一个11（或21）的窗口大小，那么我将保证在5秒（或10秒）内获取所有值。如果数据相对于持续时间很少，则会有更多。（这仅是因为它是整数数据。如果它是任意精度的浮点数，那将是另一回事。）

回复收藏 0 原文

~没有更多了~