解析器和词法分析器的设计指南？

发布于 2024-09-08 10:31:56 字数 670 浏览 5 评论 0原文

我正在编写一个词法分析器（使用 re2c）和一个解析器（使用 Lemon），用于稍微复杂的数据格式：类似于 CSV，但在特定位置具有特定的字符串类型（仅字母数字字符、字母数字字符和减号、除引号和逗号，但带有平衡大括号等）、大括号内的字符串以及看起来像带有可包含参数的左大括号和右大括号的函数调用的字符串。

我的第一个尝试是一个具有许多状态的词法分析器，每个状态都适合特定的字符串格式。但是，在来自词法分析器（变得非常大）的许多无用的“意外输入”消息之后，我意识到它可能正在尝试执行解析器的工作。我放弃了第一次尝试，转而使用只有一个状态的词法分析器、许多字符标记和一个将标记组合成不同字符串类型的解析器。这效果更好，当某些东西关闭时，我从解析器中得到更多有用的语法错误，但仍然感觉不太正确。我正在考虑向词法分析器添加一两个状态，但从解析器启动状态，解析器对给定实例中需要哪种字符串类型有更好的“概述”。总的来说，我觉得有点愚蠢:(

我没有正式的计算机科学背景，并且有点回避数学重的理论。但也许有一个教程或书籍解释了词法分析器应该（和不应该）做什么以及哪一部分解析器应该做的工作，如何构建良好的标记模式，何时使用词法分析器状态，何时以及如何使用递归规则（使用 LALR 解析器），如何避免模糊的规则。 “Lex 和 YACC 入门/HOWTO”很好，但还不够，因为我只想解析数据格式，有关编译器构建的书籍（如红龙书）对我来说有点过大，

或者也许有人可以给我一些。这里有简单的规则。

原文

分享到QQ

分享到微博