当前位置：文江博客话题详情

如何更正用户输入（有点像谷歌“你是说吗？”）

发布于 2024-08-01 12:52:14 字数 1349 浏览 9 评论 0原文

我有以下要求： -

我有很多（比如一百万）值（名称）。用户将键入搜索字符串。

我不希望用户正确拼写名称。

所以，我想让谷歌“你是说吗”。这将列出我的数据存储中的所有可能值。有一个类似但不相同的问题在这里。这没有回答我的问题。

我的问题： - 1）我认为不建议将这些数据存储在RDBMS中。因为这样我就不会过滤 SQL 查询。我必须进行全表扫描。那么，在这种情况下数据应该如何存储？

2）第二个问题与这个。但是，只是为了我的问题的完整性：如何搜索大数据集？假设数据集中有一个名字 Franky。如果用户输入 Phranky，我如何匹配 Franky？我必须循环遍历所有名称吗？

我遇到了 Levenshtein Distance，这将是查找可能字符串的好方法。但同样，我的问题是我是否必须对数据存储中的所有 100 万个值进行操作？

3）我知道，谷歌是通过观察用户行为来做到这一点的。但我想在不观察用户行为的情况下做到这一点，即通过使用我还不知道的距离算法。因为前一种方法一开始就需要大量的搜索！

4）正如 Kirk Broadhurst 在答案中指出下面，有两种可能的情况： -

用户输入错误的单词（编辑距离算法）
用户不认识单词并猜测（语音匹配算法）

我对这两个都很感兴趣。它们实际上是两个不同的东西；例如，Sean 和 Shawn 听起来相同，但编辑距离为 3 - 太高而不能被视为拼写错误。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半暖夏伤 2024-08-08 12:52:14

我会考虑使用预先存在的解决方案。

Aspell 与名称的自定义字典可能非常适合于此。生成词典文件将预先计算快速给出建议所需的所有信息。

回复收藏 0 原文

谜兔 2024-08-08 12:52:14

您有两个可能需要解决的问题（或者如果您选择不解决）

用户输入错误的单词（编辑距离算法）
用户不认识单词并猜测（语音匹配算法）

您对这两个都感兴趣吗？或者只是其中之一？它们实际上是两个不同的东西；例如，Sean 和 Shawn 听起来相同，但编辑距离为 3 - 太高而不能被视为拼写错误。

您应该预先索引字数，以确保您只建议相关答案（类似于 ealdent 的建议）。例如，如果我输入 sith，我可能会被问到我是否指的是 smith，但是如果我输入 smith 则没有意义建议西斯。确定一种算法来测量单词的相对可能性，并仅建议更有可能的单词。

我在松散匹配方面的经验强化了一个简单但重要的学习 - 根据需要执行尽可能多的索引/筛选层，不要害怕包含超过 2 或 3 个。剔除任何不以正确字母开头的内容，例如例如，然后剔除所有不以正确字母结尾的内容，依此类推。您实际上只想对尽可能小的数据集执行编辑距离计算，因为这是一项非常密集的操作。

因此，如果您有 O(n)、O(nlogn) 和 O(n^2) 算法 - 按此顺序执行所有这三个算法，以确保您只将“良好前景”放入重型算法中。

回复收藏 0 原文

夜深人未静 2024-08-08 12:52:14

对于推荐 Soundex 的人来说，它已经过时了。变音位（简单）或双变音位（复杂）要好得多。如果它确实是名称数据，如果名称起源于欧洲，或者至少是语音，那么它应该可以正常工作。

至于搜索，如果您愿意自己进行搜索，而不是使用 Aspell 或其他一些智能数据结构...在天真的情况下，预先计算可能的匹配项是 O(n^2)，但我们知道为了要完全匹配，它们必须有一个“音素”重叠，甚至可能有两个。这个预索引步骤（误报率较低）可以大大降低复杂性（在实际情况下，类似于 O(30^2 * k^2)，其中 k << n）。

回复收藏 0 原文

べ繥欢鉨o。 2024-08-08 12:52:14

正如您引用的问题的答案之一一样，Peter Norvig 的出色的解决方案适用于这是完整的 Python 代码。谷歌可能会通过多种方式查询建议，但他们所需要的是大量数据。当然，他们可以使用大量查询日志对用户行为进行建模，但他们也可以仅使用文本数据，通过查看哪种更正更常见来找到最有可能正确的单词拼写。 someting 这个词没有出现在字典中，尽管它是一个常见的拼写错误，但正确的拼写更为常见。当您找到相似的单词时，您需要最接近拼写错误且在给定上下文中最有可能的单词。

诺维格的解决方案是从古腾堡计划中获取多本书的语料库，并计算出现的单词数。他根据这些单词创建了一个字典，您还可以在其中估计单词的概率 (COUNT(单词) / COUNT(所有单词)）。如果您将这一切存储为直接哈希，访问速度很快，但存储可能会成为问题，因此您也可以使用后缀尝试。访问时间仍然相同（如果您基于哈希实现），但存储要求可能要少得多。

接下来，他对拼写错误的单词进行简单的编辑（通过删除、添加或替换字母），然后使用语料库中的词典来限制可能性列表。这是基于编辑距离（例如 Levenshtein 距离）的思想，简单的启发是，大多数拼写错误发生在编辑距离为 2 或更小的情况下。您可以根据您的需求和计算能力来扩展此范围。

一旦他有了可能的单词，他就会从语料库中找到最可能的单词，这就是你的建议。您可以添加很多东西来改进模型。例如，您还可以通过考虑拼写错误中字母的键盘距离来调整概率。当然，这是假设用户使用的是英文 QWERTY 键盘。例如，调换 e 和 q 比调换 e 和 l 的可能性更大。

Just as in one of the answers to the question you reference, Peter Norvig's great solution would work for this, complete with Python code. Google probably does query suggestion a number of ways, but the thing they have going for them is lots of data. Sure they can go model user behavior with huge query logs, but they can also just use text data to find the most likely correct spelling for a word by looking at which correction is more common. The word someting does not appear in a dictionary and even though it is a common misspelling, the correct spelling is far more common. When you find similar words you want the word that is both the closest to the misspelling and the most probable in the given context.

Norvig's solution is to take a corpus of several books from Project Gutenberg and count the words that occur. From those words he creates a dictionary where you can also estimate the probability of a word (COUNT(word) / COUNT(all words)). If you store this all as a straight hash, access is fast, but storage might become a problem, so you can also use things like suffix tries. The access time is still the same (if you implement it based on a hash), but storage requirements can be much less.

Next, he generates simple edits for the misspelt word (by deleting, adding, or substituting a letter) and then constrains the list of possibilities using the dictionary from the corpus. This is based on the idea of edit distance (such as Levenshtein distance), with the simple heuristic that most spelling errors take place with an edit distance of 2 or less. You can widen this as your needs and computational power dictate.

Once he has the possible words, he finds the most probable word from the corpus and that is your suggestion. There are many things you can add to improve the model. For example, you can also adjust the probability by considering the keyboard distance of the letters in the misspelling. Of course, that assumes the user is using a QWERTY keyboard in English. For example, transposing an e and a q is more likely than transposing an e and an l.

回复收藏 0 原文

萌梦深 2024-08-08 12:52:14

只需使用 Solr 或类似的搜索服务器，然后您就不必成为以下方面的专家主题。使用拼写建议列表，对每个建议结果运行搜索，如果结果多于当前搜索查询，则将其添加为“您的意思是吗”结果。（这可以防止虚假的拼写建议，而这些建议实际上不会返回更多相关的命中。）这样，您就不需要收集大量数据来提供初始的“您的意思是吗”，尽管 Solr 有一些机制可以让您可以手动调整某些查询的结果。

通常，您不会使用 RDBMS 进行此类搜索，而是依赖用于此目的的只读、稍微陈旧的数据库。（Solr 为底层 Lucene 引擎和数据库添加了一个友好的编程接口和配置。）在我工作的公司的网站上，夜间服务从 RDBMS 中选择更改的记录，并将它们作为文档推送到 Solr 中。只需很少的努力，我们就有了一个系统，搜索框可以非常有效地搜索产品、客户评论、网站页面和博客条目，并在搜索结果中提供拼写建议，以及像您在 NewEgg 上看到的分面浏览， Netflix 或 Home Depot，对服务器（尤其是 RDBMS）几乎没有增加压力。（我相信 Zappo 的 [新网站] 和 Netflix 都在内部使用 Solr，但不要引用我的话。）

在您的场景中，您将使用名称列表填充 Solr 索引，并选择适当的匹配算法在配置文件中。

回复收藏 0 原文