当前位置：文江博客话题详情

DFA 与 NFA 引擎：它们的功能和限制有何区别？

发布于 2024-09-28 10:53:31 字数 77 浏览 10 评论 0 原文

我正在根据 DFA 与 NFA 引擎的功能和限制，寻找关于 DFA 与 NFA 引擎之间差异的非技术解释。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

输什么也不输骨气 2024-10-05 10:53:31

确定性有限自动机 (DFA) 和非确定性有限自动机 (NFA) 具有完全相同的功能和限制。唯一的区别是符号方便。

有限自动机是具有状态并读取输入的处理器，每个输入字符都可能将其设置为另一个状态。例如，状态可能是“刚刚连续读取两个 C”或“正在开始一个单词”。这些通常用于快速扫描文本以查找模式，例如对源代码进行词法扫描以将其转换为标记。

确定性有限自动机一次处于一种状态，这是可以实现的。不确定性有限自动机一次可以处于多个状态：例如，在标识符可以以数字开头的语言中，可能存在一种状态“读取数字”和另一种状态“读取标识符”，并且当读取以“123”开头的内容时，NFA 可能同时处于两者中。实际应用哪种状态取决于它是否在单词结尾之前遇到了非数字的内容。

现在，我们可以将“读取数字或标识符”表示为状态本身，突然我们就不需要 NFA 了。如果我们将 NFA 中的状态组合表示为状态本身，我们就会得到一个比 NFA 具有更多状态的 DFA，但它做同样的事情。

这是一个更容易读、更容易写、更容易处理的问题。 DFA 本身更容易理解，但 NFA 通常较小。

回复收藏 0 原文

舂唻埖巳落 2024-10-05 10:53:31

这是来自 Microsoft 的非技术答案：

DFA 引擎以线性时间运行，因为它们不需要回溯（因此它们永远不会两次测试相同的字符）。它们还可以保证匹配尽可能长的字符串。但是，由于 DFA 引擎仅包含有限状态，因此它无法将模式与反向引用相匹配，并且由于它不构造显式扩展，因此它无法捕获子表达式。

传统的 NFA 引擎运行所谓的“贪婪”匹配回溯算法，以特定顺序测试正则表达式的所有可能扩展并接受第一个匹配。由于传统 NFA 为成功匹配构建了正则表达式的特定扩展，因此它可以捕获子表达式匹配和匹配反向引用。然而，由于传统的 NFA 会回溯，如果状态是通过不同的路径到达的，则它可以多次访问完全相同的状态。因此，在最坏的情况下，它的运行速度可能会呈指数级缓慢。因为传统的 NFA 接受它找到的第一个匹配，所以它也可能会留下其他（可能更长）的匹配未被发现。

POSIX NFA 引擎与传统的 NFA 引擎类似，不同之处在于它们会继续回溯，直到可以保证找到最长的匹配。因此，POSIX NFA 引擎比传统 NFA 引擎慢，并且在使用 POSIX NFA 时，您不能通过更改回溯搜索的顺序来选择较短的匹配而不是较长的匹配。

传统的 NFA 引擎受到程序员的青睐，因为它们比 DFA 或 POSIX NFA 引擎更具表现力。尽管在最坏的情况下它们可能运行缓慢，但您可以使用减少歧义和限制回溯的模式引导它们在线性或多项式时间内找到匹配项。

[http://msdn.microsoft.com/en-us/library/0yzc2yb0.aspx]

回复收藏 0 原文

葬花如无物 2024-10-05 10:53:31

一个简单的、非技术性的解释，摘自 Jeffrey Friedl 的书掌握正则表达式。

警告：

虽然这本书通常被认为是“正则表达式圣经”，但对于这里对 DFA 和 NFA 之间的区别是否正确存在一些争议。我不是计算机科学家，我不理解真正的“常规”表达式背后的大部分理论，无论是否确定。争议开始后，我因此删除了这个答案，但此后它已在其他答案的评论中引用。我很有兴趣进一步讨论这个问题——弗里德尔真的错了吗？还是我弄错了弗里德尔（但我昨天晚上重读了那一章，就像我记得的一样……）？

编辑：看来弗里德尔和我确实错了。请查看下面 Eamon 的精彩评论。

原始答案：

DFA 引擎逐个字符地遍历输入字符串，并尝试（并记住）正则表达式此时可以匹配的所有可能方式观点。如果到达字符串末尾，则声明成功。

想象一下字符串 AAB 和正则表达式 A*AB。现在我们逐个字母地浏览字符串。

<代码>A：
- 第一个分支：可以用A*匹配。
- 第二个分支：可以通过忽略 A*（允许零次重复）并使用正则表达式中的第二个 A 来进行匹配。
<代码>A：
- 第一个分支：可以通过扩展A*来匹配。
- 第二个分支：无法与B匹配。第二个分支失败。但是：
- 第三个分支：可以通过不扩展 A* 并使用第二个 A 来进行匹配。
<代码>B：
- 第一个分支：无法通过扩展 A* 或在正则表达式中移至下一个标记 A 来匹配。第一个分支失败。
- 第三个分支：可以匹配。万岁！

DFA 引擎绝不会在字符串中回溯。

NFA 引擎逐个标记地遍历正则表达式标记，并尝试字符串上所有可能的排列，必要时回溯。如果到达正则表达式的末尾，则表明成功。

想象一下与以前相同的字符串和相同的正则表达式。现在，我们逐个标记地遍历正则表达式标记：

A*：匹配 AA。记住回溯位置 0（字符串的开头）和 1。
A：不匹配。但我们有一个回溯位置，我们可以返回并重试。正则表达式引擎后退一个字符。现在 A 匹配。
B：匹配。已到达正则表达式末尾（还有一个回溯位置可供使用）。万岁！

A simple, nontechnical explanation, paraphrased from Jeffrey Friedl's book Mastering Regular Expressions.

CAVEAT:

While this book is generally considered the "regex bible", there appears some controversy as to whether the distinction made here between DFA and NFA is actually correct. I'm not a computer scientist, and I don't understand most of the theory behind what really is a "regular" expression, deterministic or not. After the controversy started, I deleted this answer because of this, but since then it has been referenced in comments to other answers. I would be very interested in discussing this further - can it be that Friedl really is wrong? Or did I get Friedl wrong (but I reread that chapter yesterday evening, and it's just like I remembered...)?

Edit: It appears that Friedl and I are indeed wrong. Please check out Eamon's excellent comments below.

Original answer:

A DFA engine steps through the input string character by character and tries (and remembers) all possible ways the regex could match at this point. If it reaches the end of the string, it declares success.

Imagine the string AAB and the regex A*AB. We now step through our string letter by letter.

A:
- First branch: Can be matched by A*.
- Second branch: Can be matched by ignoring the A* (zero repetitions are allowed) and using the second A in the regex.
A:
- First branch: Can be matched by expanding A*.
- Second branch: Can't be matched by B. Second branch fails. But:
- Third branch: Can be matched by not expanding A* and using the second A instead.
B:
- First branch: Can't be matched by expanding A* or by moving on in the regex to the next token A. First branch fails.
- Third branch: Can be matched. Hooray!

A DFA engine never backtracks in the string.

An NFA engine steps through the regex token by token and tries all possible permutations on the string, backtracking if necessary. If it reaches the end of the regex, it declares success.

Imagine the same string and the same regex as before. We now step through our regex token by token:

A*: Match AA. Remember the backtracking positions 0 (start of string) and 1.
A: Doesn't match. But we have a backtracking position we can return to and try again. The regex engine steps back one character. Now A matches.
B: Matches. End of regex reached (with one backtracking position to spare). Hooray!