大数组比较

发布于 2024-12-29 06:36:36 字数 330 浏览 1 评论 0原文

我在 SQL 数据库中有大约 25.000 个不同的名称，并且希望对所有这些名称执行编辑距离比较，以便标准化，例如 John Doe & 。约翰·多伊.

当数据库只有大约 1000 个名称时，我曾经将所有不同的名称存储在一个数组中。然后我会在该数组上使用两个 for 循环，从而将数组中的每个元素与其他元素进行比较。当编辑距离给出大于 0.9 的匹配时，我将执行 SQL 查询，在所有记录中用一个值替换另一个值。

对于我更大的数据库，这是不可能的了。你们会怎么做？

ps：我也对任何多线程解决方案感到好奇，因为这个过程现在需要很长时间。

pps：我正在用 Java 编码

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无人问我粥可暖 2025-01-05 06:36:36

计算每个名字的 soundex 并将其存储在数据库中怎么样？您甚至可以在数据库端执行此操作，例如有 a MySQL SOUNDEX 函数。

计算每个名称的 soundex 后，您所要做的就是按相同的 soundex 对行进行分组。

编辑：

如果 soundex 对于您的应用程序来说太粗糙，您可以首先通过比较它们的 soundex 来选择候选者，并对每组候选者使用您常用的指标。

回复收藏 0 原文

凡尘雨 2025-01-05 06:36:36

没有办法绕过成对匹配：尽可能有效的方式。

如果您需要更快地进行记录链接，请尝试使用比编辑距离需要更少计算量的字符串距离度量（博纳奇距离，Jaro–Winkler距离等）

您还可以使用另一个指标作为预处理步骤，然后计算编辑距离来确认或拒绝匹配。

回复收藏 0 原文

~没有更多了~

关于作者

冬天的雪花

暂无简介

文章

26 人气

关注发私信

达拉崩吧

文章 0 评论 0

关注

PANGOO

文章 0 评论 0

关注

kkgtx

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

酷炫老祖宗

文章 0 评论 0

关注

硪扪都還晓

文章 0 评论 0

友情链接

文江博客

大数组比较

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者