当前位置：文江博客话题详情

用于搜索查询更正的英语词典

发布于 2024-08-20 04:30:34 字数 514 浏览 5 评论 0原文

我正在通过实现“拼写更正是一个利用网络用户集体知识的迭代过程"。

高级方法如下：对于给定的查询，提出每个一元组和二元组的可能的校正候选（查询日志中一定编辑距离内的单词），然后执行修改的维特比搜索以找到最可能的序列给定二元词频率的候选人。重复这个过程，直到序列具有最大概率。

对维特比搜索的修改是，如果两个相邻单词都在可信词典中找到，则最多可以纠正一个。这对于避免将正确拼写的单词查询纠正为高频词尤其重要。

我的问题是哪里可以找到这样的词典。它应该是英文的，并包含可能出现在搜索查询中的专有名词（名字/姓氏、地点、品牌名称等）以及常见和不常见的英语单词。即使朝着正确的方向推动也会很有用。

此外，如果有人正在阅读本文并对本文中提供的方法有任何改进建议，我也愿意接受这些建议，因为这是我第一次涉足 NLP。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

指尖凝香 2024-08-27 04:30:34

为此目的最好的词典可能是 Google Web 1T 5-gram 数据集。

http://www.ldc.upenn.edu/Catalog/CatalogEntry。 jsp?catalogId=LDC2006T13

不幸的是，它不是免费的，除非您的大学是 LDC 的成员。

您还可以尝试 Python NLTK 等软件包中的语料库，但 Google 语料库似乎最适合您的目的，因为它已经与搜索查询相关。

回复收藏 0 原文

~没有更多了~

关于作者

染火枫林

暂无简介

文章

24 人气

关注发私信

lanyue

文章 0 评论 0

关注

海螺姑娘

文章 0 评论 0

关注

Demos

文章 0 评论 0

关注

亢龙有悔

文章 0 评论 0

关注

海未深

文章 0 评论 0

关注

浅忆流年

文章 0 评论 0

友情链接

文江博客

用于搜索查询更正的英语词典

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

用于搜索查询更正的英语词典

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。