模糊正则表达式

发布于 2024-08-23 15:07:48 字数 348 浏览 15 评论 0原文

在我的工作中，我使用近似字符串匹配算法（例如 Damerau-Levenshtein 距离）取得了很好的结果，使我的代码不易出现拼写错误。

现在我需要将字符串与简单的正则表达式进行匹配，例如 TV Schedule for \d\d (Jan|Feb|Mar|...)。这意味着字符串 TV Schedule for 10 Jan 应返回 0，而 T Schedule for 10. Jan 应返回 2。

这可以通过在正则表达式中生成所有字符串来完成（在本例中为 100x12) 并找到最佳匹配，但这并不实用。

您对如何有效地做到这一点有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梅倚清风 2024-08-30 15:07:48

我找到了TRE库，它似乎能够精确地进行正则表达式的模糊匹配。示例： http://hackerboss.com/approximate-regex-matching-in-python/
但它只支持插入、删除和替换。没有转置。但我想这工作正常。

我在以下文件上尝试了附带的 agrep 工具和正则表达式：

TV Schedule for 10Jan
TVSchedule for Jan 10
T Schedule for 10 Jan 2010
TV Schedule for 10 March
Tv plan for March

并得到了

$ agrep -s -E 100 '^TV Schedule for \d\d (Jan|Feb|Mar)
非常感谢您的所有建议。
 filename
1:TV Schedule for 10Jan
8:TVSchedule for Jan 10
7:T Schedule for 10 Jan 2010
3:TV Schedule for 10 March
15:Tv plan for March

非常感谢您的所有建议。

I found the TRE library, which seems to be able to do exactly fuzzy matching of regular expressions. Example: http://hackerboss.com/approximate-regex-matching-in-python/
It only supports insertion, deletion and substitution though. No transposition. But I guess that works ok.

I tried the accompanying agrep tool with the regexp on the following file:

TV Schedule for 10Jan
TVSchedule for Jan 10
T Schedule for 10 Jan 2010
TV Schedule for 10 March
Tv plan for March

and got

$ agrep -s -E 100 '^TV Schedule for \d\d (Jan|Feb|Mar)
Thanks a lot for all your suggestions.
 filename
1:TV Schedule for 10Jan
8:TVSchedule for Jan 10
7:T Schedule for 10 Jan 2010
3:TV Schedule for 10 March
15:Tv plan for March

Thanks a lot for all your suggestions.

回复收藏 0 原文

凶凌 2024-08-30 15:07:48

另请参阅：Python 正则表达式（较新版本，2014 年 10 月< /a>)（在文档中搜索“fuzzy”）。

如果您不是 Python 爱好者（我也不是），您可以将您的代码编译为 C (exe/dll)。然后你就可以使用你的 dll，甚至可以使用旧的 vb6（等等）。

其他库可供选择：

TRE/agrep（'classic, good, old and fast）（搜索'agrep Performance'），但你需要编写POSIX兼容的正则表达式（搜索'正则表达式信息POSIX')
当然，所有使用 TRE 的库/示例都有此限制（搜索“hackerboss approximation regex matches in python”）。对于海量数据：搜索“agrep 算法的快速 CUDA 实现”。
FREJ (Java) - 一些（更多）限制（例如，不向前看/向后看）
fuzzy-wuzzy （基于 Python） - 值得一看，未经测试...

还搜索：

“Comparison_of_regular_expression_engines”
“regular-expressions.info 工具”

（抱歉无法发布真实链接）

回复收藏 0 原文

撧情箌佬 2024-08-30 15:07:48

我只是使用 regex 模块: '替代正则表达式模块，更换重新。它提供了熟悉的 re 功能，但包含模糊匹配选项，以及对 re 的其他几项改进。

对于 Windows 二进制文件，请参阅此资源。

回复收藏 0 原文

桜花祭 2024-08-30 15:07:48

这里是有关您所问问题的资源。对于一家公司来说，这有点像预告片。更有用的可能是这篇论文。我看到了一个受该论文启发的实现，它可以在大型数据集上进行模糊搜索，偏向于特殊语言（例如阿拉伯语与英语）。

一般来说，您将无法执行您所要求的操作。您可以通过用等价类替换字符来使正则表达式搜索变得模糊，也可以在数据库中搜索由编辑距离定义的近似匹配。尝试扩展正则表达式后面的 (n)DFA 以包含按距离排列的近似匹配将很快变得极其复杂。

回复收藏 0 原文

深陷 2024-08-30 15:07:48

您是否考虑过使用词法分析器？

我从未真正使用过，所以我帮不上什么忙，但听起来很合适！

回复收藏 0 原文

樱花落人离去 2024-08-30 15:07:48

我开始实现一个名为 prex 的 Java 工具，用于近似正则表达式匹配。该工具确定字符串 s 与正则表达式 r 的匹配程度，ie 在 s 上插入、删除和替换了多少次 至少是必需的（最小成本），使得生成的字符串 s' 可以被 r 接受。如果您有兴趣，可以查看 https://github.com/julianthome/prex 中的代码。我很乐意得到一些反馈。请注意，该方法仍然有点慢，但我目前正在结合一些启发式方法来提高其性能。