当前位置：文江博客话题详情

自动更正文本输入中的拼写错误

发布于 2024-12-03 07:15:44 字数 336 浏览 1 评论 0原文

我正在用 C# 编写一个自然语言处理器，用于提取句子的情绪（正面/负面）。然而，在能够辨别拼写错误的单词的情感方面存在一些问题 - 如果它不在字典中，我既不能标记它也不能评价它！

我知道必须有一种方法来处理这个问题。谷歌总是给出准确的建议，我只需要从类似的算法中获取最重要的建议并用它来访问数据库即可。问题是，我不知道从哪里开始算法名称等。我需要帮助来解决这个问题。

我在网站上检查了类似的问题，发现了一些似乎有用的概念，但处理拼写错误和真实单词之间距离的基本方法基本上依赖于击中数据集中的每个单词，这似乎效率极低。一些使算法快速运行的想法的帮助也将不胜感激；该分析引擎应该能够每天处理数千个项目。

提前致谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岛歌少女 2024-12-10 07:15:44

这个问题并不那么愚蠢。 Norvig 写了一篇关于它的文章。一般来说，难度取决于准确性。 “最简单”的方法是使用前缀树或trie来避免探索所有可能性。
基本上你有这样的东西：

在此处输入图像描述

并遵循你基本上保持在正轨上的路径。一旦您陷入困境，您应该根据错误类型检查如何继续前进。

您可以阅读 Norvig 的文章进行更深入的分析。

回复收藏 0 原文

所有深爱都是秘密 2024-12-10 07:15:44

迪埃尔给出的方法——包括彼得·诺维格的文章——当然值得进一步考虑。

但是，对于快速而肮脏的解决方案：如果在您自己的字典中找不到可能拼写错误的单词，您可以尝试在此常见拼写错误列表

回复收藏 0 原文

青朷 2024-12-10 07:15:44

如果您想有效地计算拼写错误和大量字典单词之间的编辑距离，@dierre 提到的前缀树非常有用。 Brill 和 Moore (2000) 描述了一种使用前缀树的方法，使用与 Norvig 和许多其他拼写检查器相同的通用方法。他们的论文可以在这里找到：http://www.ldc.upenn .edu/acl/P/P00/P00-1037.pdf

回复收藏 0 原文

~没有更多了~