超过 100k+ 的快速动态模糊搜索C# 中的字符串

发布于 2024-11-06 19:45:14 字数 340 浏览 7 评论 0原文

假设它们是预先加载的股票代码，输入到文本框中。我正在寻找可以复制的代码，而不是要安装的库。

这是受到这个问题的启发：

是否有为 C# 编写的模糊搜索或字符串相似性函数库？

Levenstein 距离算法似乎运行良好，但计算需要时间。当用户输入额外的字母时，查询需要重新运行，是否有任何优化？我有兴趣最多显示每个输入的前 10 个匹配项。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

阪姬 2024-11-13 19:45:14

您需要确定字符串周围的匹配规则。是什么决定了“相似字符串”

匹配字符数
不匹配字符数
相似长度
拼写或语音错误
业务特定缩写
必须以相同的子字符串开头
必须以相同的子字符串结尾

我在字符串匹配方面做了很多工作算法，并且尚未找到任何满足我的特定要求的现有库或代码。查看它们，借鉴它们的想法，但您总是必须自定义并编写自己的代码。

Levenstein 算法很好，但有点慢。我在史密斯-沃特曼和史密斯-沃特曼的帮助下都取得了一些成功。 Jaro-Winkler 算法，但我发现最适合我的目的的是 Monge（凭记忆）。然而，阅读原始研究并确定他们编写算法和目标数据集的原因是值得的。

如果您没有正确定义要匹配和衡量的内容，那么您会发现意外匹配的得分高，而预期匹配的得分低。字符串匹配非常是特定于域的。如果你没有正确定义你的领域，那么你就像一个毫无头绪的渔夫，到处扔鱼钩，希望得到最好的结果。

回复收藏 0 原文

灯角 2024-11-13 19:45:14

这篇博文描述了一些工作进入Lucene这方面。他们能够使用有限状态转换器（自动机）非常有效地实现 Levenshtein 距离模糊匹配，编辑距离可达 2。代码全部采用 Java 编写，虽然是开源的，但有点复杂。

但基本思想很简单：将你的字典想象成一棵巨大的字母状态树。在 state0，你没有字母。在 state1，您承认任何可能是单词第一个字母的字母。 State2 以 state1 为条件；如果第一个字母是“x”，则下一个状态只接受 x 后面的字母（位置 2）。现在

，对于 Levenshtein 匹配，您遍历字母树，同时允许一些错误：删除、插入（一个字母通配符）和可能的转置（Levenshtein 的一个很好的扩展是将转置视为单个编辑而不是 2）。您必须维护状态才能跟踪允许的编辑次数。这可以非常有效地完成 - 对于交互式“当您键入时”拼写建议器来说当然足够快。

回复收藏 0 原文

~没有更多了~