构建修复拼写错误的自然语言模型

发布于 2024-08-20 13:15:14 字数 288 浏览 11 评论 0原文

关于如何构建这样的自然语言解析程序的书籍是什么：

input: I got to TALL you
output: I got to TELL you

input: Big RAT box
output: Big RED box

in: hoo un thum zend three
out: one thousand three

它必须具有允许预测哪些单词拼写错误的语言模型！

关于如何构建这样一个工具的最好的书籍是什么？

ps 有免费的拼写检查网络服务吗？也许来自谷歌？...

原文

What are books about how to build a natural language parsing program like this:

input: I got to TALL you
output: I got to TELL you

input: Big RAT box
output: Big RED box

in: hoo un thum zend three
out: one thousand three

It must have the language model that allows to predict what words are misspelled !

What are the best books on how to build such a tool??

p.s. Are there free webservices to spell-check? From Google maybe?..

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谁与争疯 2024-08-27 13:15:14

Peter Norvig 编写了一个非常棒的拼写检查器。也许这可以帮助你。

回复收藏 0 原文

只涨不跌 2024-08-27 13:15:14

您至少有三个选择

您可以编写一个能够理解该语言（即单词含义）的程序。这是今天要研究的一个课题。当您可以购买一台足够快的计算机来运行这样的程序时，您就可以期待第一个结果（这可能需要 10 年后计算机的速度比今天快 1000 倍）。
使用庞大的语料库（文本文档）来训练隐马尔可夫模型。
使用庞大的语料库并生成有关~~四元组~~ n-gram 的统计信息，即 N 个单词的元组出现的频率。我没有方便的链接，但想法是某些单词总是出现在其他单词的上下文中。因此，当您将文本解析为 4 克并在数据库中查找它们时却找不到，则当前元组可能存在问题。下一步是找到所有可能的匹配（其他 4-gram 具有较小的 soundex 或与当前匹配的距离相似），并尝试频率最高的匹配。
Google 拥有多种语言的此类数据，您可能会在 Google 实验室中找到更多相关信息。

[编辑]经过一番谷歌搜索，我终于找到了链接：在此页面上，你可以购买谷歌在整个互联网上收集的英语1-5克的6张DVD。

谷歌搜索“google 拼写统计 n-grams”也会出现一些有趣的链接。

回复收藏 0 原文

云胡 2024-08-27 13:15:14

soundex (wiki) 是一种选择

回复收藏 0 原文

-柠檬树下少年和吉他 2024-08-27 13:15:14

有很多用于自然语言处理的 Java 库可以帮助您实现拼写校正器。但你问的是一本书。 Christopher D. Manning 和 Hinrich Schütze 的统计自然语言处理基础看起来是一个不错的选择。第一作者是一位斯坦福大学教授，领导着一个小组，从事自然语言处理和开发许多人使用的 Java 库和 NLP 资源。

回复收藏 0 原文