当前位置：文江博客话题详情

为什么正则表达式默认是贪婪的？

发布于 2024-08-21 08:06:19 字数 113 浏览 13 评论 0原文

对于编写正则表达式的初学者来说，这似乎是一个巨大的混乱来源，可能会导致隐藏的性能问题，而且典型的用例似乎是非贪婪的。

这只是出于遗留原因（这是最初完成的方式，每个实现都会复制它），还是有其他原因？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不必了 2024-08-28 08:06:19

歇斯底里的 Raisens

部分答案可能涉及 RE 在实际计算中的起源。它们最初是来自自动机理论和形式语言理论的理论概念，直到Ken Thompson 本人编写了一个真正的实现并在 qed 和 ed( 1）。

原始版本只有贪婪语法，因此甚至没有做出决定。

回复收藏 0 原文

内心激荡 2024-08-28 08:06:19

就性能而言，由于回溯，惰性量词并不总是更快：http:// blog.stevenlevithan.com/archives/greedy-lazy-performance

至于实际设计，老实说我不能说为什么量词默认是贪婪的，但我确实想知道什么控制字符会被用来制作量词贪婪而不是懒惰。我不认为 ? 会削减它:-)

回复收藏 0 原文

墨离汐 2024-08-28 08:06:19

可能的原因：如果非贪婪，正则表达式引擎需要回溯很多。

回复收藏 0 原文

很快妥协 2024-08-28 08:06:19

嗯，重要的是计算机尽可能地表现得可预测。因此，正确的行为应该遵循一个简单的规则，比如贪婪匹配，这样至少有经验的程序员才能预测一段代码的结果。

至于典型用例是否应该是非贪婪的，那么以下情况如何：假设我有一个包含 foo1909、bar3939、baz3331 等条目的文件，而我只想提取这些数字。将 (\d*) 写为正则表达式似乎很自然。

你可能会说，写成 (\d*)\D 或其他什么都一样容易，但基本上总是这样，程序员可以更明确、更明确。因为我们想要一个 100% 可预测的默认行为，并且在头脑中计算起来很简单，所以对我来说这似乎是合理的。

回复收藏 0 原文

智商已欠费 2024-08-28 08:06:19

这里真正的问题是 Kleene 闭包运算符（星号）；对于正则表达式中的其他所有内容，最长匹配与最短匹配相同。

当您从这些角度思考时，您会意识到更现代的工具意识到您需要两者。我迟到了，所以我只能想到两个例子：

ksh 和 bash 都提供“最长匹配”和“最短匹配”大多数特殊变量更改运算符的“匹配”形式。
Lua正则表达式包括用于Kleene闭包最长匹配的*和用于Kleene闭包最短匹配的-。当我忘记转义文字 - 符号时，这个问题总是困扰着我。

回顾 Kleene 的原始工作，看看这是否会影响最长匹配的早期工具，将会很有趣。

回复收藏 0 原文

海风掠过北极光 2024-08-28 08:06:19

典型的用例似乎是非贪婪的。

我想澄清的是，这是错误的，除非“典型用例”意味着 HTML 黑客攻击。

一个简单的例子是编程语言的词法分析器。您只是不想

foo = 42

被解释为 3 个变量，后跟一个等号，后跟 2 个数字。相反，通常您希望解析器考虑最长的可能匹配。

在 HTML 出现之前，我们这些年长的人已经在贪婪的正则表达式中生活了几十年，而且我们做得很好。即使在今天，我在 99% 的情况下也不会使用非贪婪的，诚然，因为我懒得查找语法，但也因为很少有场合你不能只写一个终止良好的贪婪的。例如，要匹配一个字符串：

"(\\"|[^"])*"

it would seem that a typical use case would be non-greedy.

I want to make it clear that this is wrong, unless "typical use case" means HTML-hacking.

An easy example are lexical analysers for programming languages. You simply don't want

foo = 42

to be interpreted as 3 variables, followed by an equal sign, followed by 2 numbers. On the contrary, typically you expect your parser to consider the longest possible matches.

Before the advent of HTML, we elder ones have lived for decades with greedy regular expressions, and we did just fine. Even today I do not use non-greedy ones in 99% of all cases, admittedly because I am too lazy to look up the syntax, but also because the occasions are seldom where you couldn't just write a well terminated greedy one. For example, to match a string: