“大” Python 中的缩放拼写检查

发布于 2024-09-13 12:09:59 字数 641 浏览 8 评论 0原文

令人惊讶的是，我找不到其他人真正这样做，但肯定有人这样做。我目前正在开发一个 python 项目，涉及约 16000 个单词的拼写检查。不幸的是，这个字数只会增加。现在我正在从 Mongo 中提取单词，迭代它们，然后使用 pyenchant 对它们进行拼写检查。我首先从那里获取所有项目，从而消除了 mongo 作为潜在瓶颈的问题。这让我有大约 20 分钟的时间来处理 16k 个单词，这显然比我想要花的时间要长。这给我留下了一些想法/问题：

显然我可以利用线程或某种形式的并行性。即使我把它切成 4 块，假设达到最佳性能，我仍然会花费大约 5 分钟。显然
有没有办法知道 Enchant 在 pyenchant 下使用的拼写库是什么？ Enchant 的网站似乎暗示在拼写检查时它将使用所有可用的拼写库/词典。如果是这样，那么我可能会通过三到四个拼写词典来运行每个单词。这可能是我的问题，但我很难证明情况确实如此。即使是，我真的可以选择卸载其他库吗？听起来很不幸。

那么，关于如何从中至少获得更多性能，有什么想法吗？我很乐意将其分解为并行任务，但我仍然希望在这样做之前让它的核心部分更快一点。

编辑：抱歉，在早上喝咖啡之前发帖...如果某个单词拼写错误，Enchant 会为我生成一个建议列表。这似乎是我在这个处理部分花费大部分时间的地方。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

逆光下的微笑 2024-09-20 12:09:59

我想我们都同意这里的性能瓶颈是附魔；对于这种大小的数据集，几乎可以立即执行布尔值 isSpeltCorrectly。那么，为什么不呢：

使用 Enchant 提供的词典或获取您自己的词典来构建一组正确拼写的单词（例如 OpenOffice 的）。
（可选）对文档的单词进行唯一化，例如将它们放入集合中。这可能不会为您节省太多。
检查每个单词是否在集合中。这很快，因为它只是一个集合查找。（可能O(log N)，其中N是单词数？假设通过哈希set存储桶并进行二分搜索......Python大师可以在这里纠正我。）
如果不是，那么请 Enchant 为其推荐一个词。这必然很慢。

这假设您的大部分单词拼写正确；如果不是，你就必须变得更聪明。

回复收藏 0 原文

捎一片雪花 2024-09-20 12:09:59

我会使用 Peter Norvig 风格的拼写检查器。我已经就此写了一篇完整的文章。

http://blog.mattalcock.com/2012/12/5/ python-spell-checker/

这是一段代码，用于查看要检查的单词的可能编辑。

def edits1(word):
    s = [(word[:i], word[i:]) for i in range(len(word) + 1)]
    deletes    = [a + b[1:] for a, b in s if b]
    transposes = [a + b[1] + b[0] + b[2:] for a, b in s if len(b)>1]
    replaces   = [a + c + b[1:] for a, b in s for c in alphabet if b]
    inserts    = [a + c + b     for a, b in s for c in alphabet]
    return set(deletes + transposes + replaces + inserts)

您应该使用此代码快速迭代不断增长的单词数据文件以进行检查。有关更多信息，请参阅完整帖子：

http://blog.mattalcock。 com/2012/12/5/python-拼写检查器/

I would use A Peter Norvig style spell checker. I've written a complete post on this.

http://blog.mattalcock.com/2012/12/5/python-spell-checker/

Here's a snippet of the code that looks at possible edits of the word to check.

def edits1(word):
    s = [(word[:i], word[i:]) for i in range(len(word) + 1)]
    deletes    = [a + b[1:] for a, b in s if b]
    transposes = [a + b[1] + b[0] + b[2:] for a, b in s if len(b)>1]
    replaces   = [a + c + b[1:] for a, b in s for c in alphabet if b]
    inserts    = [a + c + b     for a, b in s for c in alphabet]
    return set(deletes + transposes + replaces + inserts)

You should be iterate through your growing data file of words to check extremely quickly with this code to check. See the full post for more information:

http://blog.mattalcock.com/2012/12/5/python-spell-checker/

回复收藏 0 原文