R 中的快速编辑距离?

发布于 2024-09-08 10:13:16 字数 129 浏览 10 评论 0原文

是否有一个包包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数函数?我有很多字符串需要比较,而来自 MiscPsychostringMatch 对此来说太慢了。

Is there a package that contains Levenshtein distance counting function which is implemented as a C or Fortran code? I have many strings to compare and stringMatch from MiscPsycho is too slow for this.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

注定孤独终老 2024-09-15 10:13:16

以及 stringdiststringdist code> 包也能做到这一点,在某些条件下甚至比 levenshteinDist 更快(1)

And stringdist in the stringdist package does it too, even faster than levenshteinDist under certain conditions (1)

甜味拾荒者 2024-09-15 10:13:16

levenshteinDist(来自 RecordLinkage package) 调用编译的 C 代码。尝试一下。

levenshteinDist (from the RecordLinkage package) calls compiled C code. Give it a try.

你在我安 2024-09-15 10:13:16

您也可以尝试 Biostrings 中的 stringDist

You could try stringDist from Biostrings as well

悸初 2024-09-15 10:13:16

您还可以使用 textTinyR 包中的 levenshtein_distance()。当涉及到大约 30k 字符的较大字符向量时,我遇到了所有其他包的“calloc”内存错误。只有 textTinyR 对我有用!

You could also use levenshtein_distance() from the textTinyR package. I got 'calloc' memory errors with all other packages when it came to larger character vectors of around 30k characters. Only textTinyR worked for me!

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文