如何调整编辑距离来对语言上相似的单词进行分类（例如动词时态、形容词比较、单数和复数）

发布于 2024-12-25 04:21:35 字数 600 浏览 5 评论 0原文

我不知道如何完成这项任务。我正在计算一个单词的频率，实际上是该单词的基本形式（例如，跑步将被计为跑步）。我查找了 Levenshtein 距离的一些实现（我遇到的一个实现是来自 dotnerperls）。

我也尝试过双 Metaphone，但这不是我想要的。

因此，请给我一些关于如何调整 Levenshtein 距离算法来对语言上相似的单词进行分类的想法，因为该算法仅用于确定所需的编辑数量，而不考虑它们在语言上是否相似

示例： 1.“running”将被算作“run”一词出现的一次 2.“word”同样会出现“word” 3.“fear”不会被算作“gear”的出现

此外，我正在用 C# 实现它。

提前致谢。

编辑：我按照雷内的建议进行了编辑。另一个注意事项：我正在尝试考虑一个单词是否是另一个单词的子串，但该实现不会那么动态。我认为的另一个想法是：“如果将 -s 或 -ing 添加到 string1，string1 == string2，则 string2 是 string1 的出现。”然而，情况并非如此，因为有些单词的复数形式不规则。

原文