更快的 C#(或其他 .NET)Levenshtein 距离实现
晚安, 我已经研究模糊字符串匹配有一段时间了,并且使用 C 和一些指针,我可以编写一个非常快速的(根据我的需要)实现两个字符串之间的 Levenshtein…
在 Python 中对约 100,000 个短字符串进行聚类
我想通过 q-gram 距离或简单的“bag 距离”或者 Python 中的 Levenshtein 距离之类的东西对大约 100,000 个短字符串进行聚类。我打算填写一个距离…
如何在相似性度量和差异性(距离)度量之间进行转换?
是否有一种通用方法可以在相似性度量和距离度量之间进行转换? 考虑相似性度量,例如两个字符串共有的 2 元语法的数量。 2-grams('beta', 'delta') = …
如何修改 Levenshteins 编辑距离以计算“相邻字母交换”作为 1 编辑
我正在使用 Levenshteins 编辑距离算法,我想扩展它来计算换位 - 即交换相邻字母的数量——作为 1 次编辑。未修改的算法计算从另一个字符串到达某…
计算相对编辑距离 - 有意义吗?
我使用 Daitch-Mokotoff soundexing 和 Damerau-Levenshtein 来确定应用程序中的用户条目和值是否“相同”。 编辑距离应该用作绝对值吗?如果我有一个…
修改 Levenshtein Distance 算法以不计算所有距离
我正在研究模糊搜索实现,作为实现的一部分,我们使用 Apache 的 StringUtils.getLevenshteinDistance。目前,我们正在为模糊搜索设定一个特定的最大…
Damerau - Levenshtein 距离,添加阈值
我有以下实现,但我想添加一个阈值,因此如果结果大于它,则停止计算并返回。 我该怎么办呢? 编辑:这是我当前的代码,尚未使用 threshold ...目标是…
Levenshtein 距离的 Haskell 尾递归性能问题
我正在 Haskell 中计算 Levenshtein 距离,并对以下性能感到有点沮丧问题。如果你用 Haskell 最“正常”的方式实现它,就像下面的(dist),一切都很…
如何配置 solr / lucene 来执行 levenshtein 编辑距离搜索?
我有一个很长的单词列表,我将其放入一个非常简单的 SOLR / Lucene 数据库中。我的目标是从单项查询列表中找到“相似”单词,其中“相似性”具体理解…
如何纠正 Damerau-Levenshtein 实施中的错误?
我带着另一个较长的问题回来了。尝试过许多基于 Python 的 Damerau-Levenshtein 编辑距离实现,我终于找到了下面列出的 作为 editdistance_reference(…