当前位置：文江博客话题详情

正则表达式之间的距离

发布于 2024-08-19 01:43:43 字数 56 浏览 9 评论 0原文

我们可以计算正则表达式之间的距离吗？

这个想法是测量两个正则表达式在哪些方面相似。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绮烟 2024-08-26 01:43:43

您可以为这两个正则表达式构建确定性有限状态机并比较转换。然后可以使用两个转换的差异来测量这些正则表达式的距离。

回复收藏 0 原文

眸中客 2024-08-26 01:43:43

您可以使用一些指标：

有效匹配的长度。有些正则表达式有固定大小，有些有上限，有些有下限。比较它们的长度或可能长度的相似程度。
匹配的字符。任何正则表达式都会有一组匹配可以包含的字符（也许是所有字符）。比较包含的字符集。
使用一个大文档，看看每个正则表达式有多少个匹配，其中有多少是相同的。
使用

您是否正在寻找严格等效？

回复收藏 0 原文

缱绻入梦 2024-08-26 01:43:43

我想您可以计算实际正则表达式字符串之间的 Levenshtein 距离。这当然是测量两个不同正则表达式字符串之间“距离”的一种方法。

当然，我认为这里可能根本不需要正则表达式，并且计算正则表达式应用到的实际“值”字符串的编辑距离可能会产生更好的结果。

回复收藏 0 原文

初见你 2024-08-26 01:43:43

如果您有两个正则表达式并且有一组示例输入，您可以尝试将每个输入与每个正则表达式进行匹配。对于每个输入：

如果它们都匹配或都不匹配，则得分 0。
如果一个匹配而另一个不匹配，则得分 1。

将所有输入的得分相加，这将为您提供常规输入之间的“距离”表达式。这将使您了解两个正则表达式对于典型输入的不同频率。如果你的样本输入集很大，计算会非常慢。如果两个正则表达式无法匹配几乎所有随机字符串并且您的预期输入完全是随机的，那么它根本不起作用。例如，如果在随机输入上进行测试，正则表达式“sgjlkwren”和正则表达式“ueuenwbkaalf”可能永远不会匹配任何内容，因此该指标会表明它们之间的距离为零。这可能是也可能不是您想要的（可能不是）。

您也许能够分析正则表达式的结构，并使用有偏差的随机采样来故意命中比完全随机输入更频繁匹配的字符串。例如，如果两个正则表达式都要求字符串以“foo”开头，您可以确保您的测试输入也始终以 foo 开头，以避免浪费时间测试您知道这两个字符串都会失败的字符串。

所以总而言之：除非您遇到非常特殊的情况，并且输入集和/或正则表达式语言受到限制，否则我认为这是不可能的。如果您确实对输入和正则表达式有一些限制，那么这是可能的。请具体说明这些限制是什么，也许我可以想出更好的办法。

回复收藏 0 原文