识别英语句子中无意义的成分

发布于 2025-01-07 11:51:15 字数 681 浏览 5 评论 0原文

我想知道是否有一种算法或库可以帮助我识别英语中没有意义的组件？例如，非常严重语法错误？如果是这样，您能否解释一下它是如何工作的，因为我真的很想实现它或将其用于我自己的项目。

这是一个随机示例：

在句子中：“我关闭了等页面你好门。”

作为人类，我们可以很快识别出 [so etc page hello] 没有任何意义。机器是否有可能指出该字符串没有任何意义并且还包含语法错误？

如果有这样的解决方案，其精确度能达到多少？例如，给定一个英语句子的剪辑，算法是否有可能返回一个度量，表明该剪辑的意义或正确性？非常感谢！

PS：我查看了 CMU 的链接语法以及 NLTK 库。但我仍然不确定如何使用例如链接语法解析器来做我想做的事情，因为如果解析器不接受这个句子，我不知道如何调整它来告诉我它的哪一部分是不对的..而且我不确定 NLTK 是否支持这一点。

我解决这个问题的另一个想法是查看单词组合的频率。因为我目前只对纠正非常严重的错误感兴趣。如果我将“严重错误”定义为句子片段中的单词很少一起使用的情况，即组合的频率应该远低于句子中其他组合的频率。

例如，在上面的例子中：[so etc page hello]这四个词确实很少一起出现。我的想法的一个直觉来自于当我在谷歌中输入这样的组合时，没有相关的结果跳出来。那么有没有像谷歌那样为我提供此类频率信息的图书馆呢？这样的频率可以很好地暗示单词组合的正确性。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凡尘雨 2025-01-14 11:51:15

我认为您正在寻找的是语言模型。语言模型为您的语言中出现的 k 个单词的每个句子分配一个概率。最简单的语言模型是 n-gram 模型：给定句子的前 i 个单词，观察到第 i+1 个单词的概率仅取决于 < code>n-1 之前的单词。

例如，对于二元模型 (n=2)，句子 w1 w2 ... wk 的概率等于

P(w1 ... wk) = P(w1) P(w2 | w1) ... P(wk | w(k-1)).

计算概率 P( wi | w(i-1))，您只需计算二元组 w(i-1) wi 和单词 w(i -1) 在大型语料库上。

这是关于该主题的一篇很好的教程论文：A Bit of Progress in语言建模，作者：Joshua Goodman。

I think that what you are looking for is a language model. A language model assigns a probability to each sentence of k words appearing in your language. The simplest kind of language models are n-grams models: given the first i words of your sentence, the probability of observing the i+1th word only depends on the n-1 previous words.

For example, for a bigram model (n=2), the probability of the sentence w1 w2 ... wk is equal to

P(w1 ... wk) = P(w1) P(w2 | w1) ... P(wk | w(k-1)).

To compute the probabilities P(wi | w(i-1)), you just have to count the number of occurrence of the bigram w(i-1) wi and of the word w(i-1) on a large corpus.

Here is a good tutorial paper on the subject: A Bit of Progress in Language Modeling, by Joshua Goodman.

回复收藏 0 原文