在 Python 中模糊匹配大量文本中的字符串(url)
我有一个公司名称列表,还有一个提及公司名称的 url 列表。 最终目标是查看该 url,并找出该 url 上有多少家公司在我的列表中。 示例 URL:http://www…
数组上的 perl String::Approx
我正在使用 String::Approx 来查找两个最相似的匹配-其他列表中的项目数组。我惊喜地发现您可以使用 amatch() 来比较数组与数组,尽管该功能没有文档…
Java 中的模糊字符串搜索,包括单词交换
我是一名 Java 初学者,正在尝试编写一个程序,将输入与预定义字符串列表相匹配。我查看了 Levenshtein 距离,但遇到了这样的问题: 如果我有一个输入…
改进 Python 中的模糊匹配算法
任务:获取两个文本文件并输出 100% 匹配和 75% 匹配。 解决方案: import difflib import csv # Imports and parses the files fileA = open("H:/com…
Ruby 上的 difflib
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找书籍、工具、软件库…
语言特定怪癖的 Damerau–Levenshtein 距离
对于讲荷兰语的人来说,两个字符“ij”被认为是一个字母,可以很容易地与“y”交换。 对于我正在从事的项目,我想要一个 Damerau– 的变体 - Levensht…
Lucene.net 模糊短语搜索
我自己已经尝试了相当长的一段时间,并在网络上到处寻找 - 但一直无法找到任何通过 Lucene.NET 2.9.2 进行模糊短语搜索的示例。 (C#) 是否能够建议…
如何使用 jaro-winkler 查找表中最接近的值?
我的数据库中有一个 jaro-winkler 算法的实现。这个函数不是我写的。该函数比较两个值并给出匹配的概率。 所以 jaro(string1, string2, matchnoofchar…
Python 中的规范 URL 比较?
有没有可以用 Python 进行 URL 比较的工具? 例如,如果我有 http://google.com 和 google.com/,我想知道它们可能是同一个网站。 如果我要手动构建规…