解析 C/C++来源： lex/yacc 中如何指定令牌边界/交互？

发布于 2024-10-03 18:27:12 字数 473 浏览 3 评论 0原文

我想解析一些 C++ 代码，作为指导，我一直在此处查看 C lex/yacc 定义： http://www.lysator.liu.se/c/ANSI-C-grammar-l.html 和 http://www.lysator.liu.se/c/ANSI-C-grammar-y.html

我了解代币本身的规格，但不了解它们如何交互。例如。可以使用 = 等运算符直接跟在标识符后面而不插入空格（即“foo=”），但不能在标识符后面紧跟着数字常量（即 123foo）。但是，我没有看到任何表示这些规则的方式。

我错过了什么？...或者这个 lex/yacc 在接受错误方面过于自由。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一个人的夜不怕黑 2024-10-10 18:27:12

词法分析器将字符流转换为令牌流（我认为这就是令牌规范的意思）。语法指定哪些标记序列是可接受的。因此，你不会看到某些事情是不允许的；您只能看到允许的内容。这有道理吗？

编辑

如果重点是让词法分析器区分序列“123foo”和序列“123 foo”，一种方法是添加“123foo”的规范。另一种方法是将空格视为重要的。

EDIT2

语法错误可以从词法分析器或语法生成或编译器的后期阶段“检测到”（想想类型错误，它仍然是“语法错误”）。我认为，整个编译过程的哪一部分检测哪个错误很大程度上是一个设计问题（因为它影响错误消息的质量）。在给定的示例中，通过将“123foo”标记为无效标记来取缔“123foo”可能更有意义，而不是依赖于数字文字后跟标识符的产生式的不存在（至少，这是海湾合作委员会）。

回复收藏 0 原文

塔塔猫 2024-10-10 18:27:12

词法分析器可以处理 123foo 并将其分成两个标记。

一个整型常量
和一个标识符。

但是尝试在语法中找到允许这两个标记像这样并排放置的部分。因此，我打赌词法分析器在看到这两个标记时会生成错误。

请注意，词法分析器不关心空格（除非您明确告诉它要担心）。在这种情况下，它只是扔掉空格：

[ \t\v\n\f]     { count(); } // Throw away white space without looking.

只是为了检查这就是我构建的：

wget http://www.lysator.liu.se/c/ANSI-C-grammar-l.html > l.l
wget http://www.lysator.liu.se/c/ANSI-C-grammar-y.html > y.y

编辑文件 ll 以在编译器中停止抱怨未声明的函数：

#include "y.tab.h"

// Add the following lines
int  yywrap();
void count();
void comment();
void count();
int  check_type();
// Done adding lines

%}

创建以下文件：main.c：

#include <stdio.h>

extern int yylex();

int main()
{
    int x;
    while((x = yylex()) != 0)
    {
        fprintf(stdout, "Token(%d)\n", x);
    }
}

构建它：

$ bison -d y.y
y.y: conflicts: 1 shift/reduce
$ flex l.l
$ gcc main.c lex.yy.c
$ ./a.out
123foo
123Token(259)
fooToken(258)

是的，它将它分成两个代币。

The lexer is fine with 123foo and will split that into two tokens.

An integer constant
and an identifier.

But try and find the part in the syntax that allows those two tokens to sit side by side like that. Thus I bet the lexer is generating an error when it sees these two tokens.

Note the lexer does not care about whitespace (unless you explicitly tell it tow worry). In this case it just throws white space away:

[ \t\v\n\f]     { count(); } // Throw away white space without looking.

Just to check this is what I built:

wget http://www.lysator.liu.se/c/ANSI-C-grammar-l.html > l.l
wget http://www.lysator.liu.se/c/ANSI-C-grammar-y.html > y.y

Edited file l.l to stop in the compiler complaining about undeclared functions:

#include "y.tab.h"

// Add the following lines
int  yywrap();
void count();
void comment();
void count();
int  check_type();
// Done adding lines

%}

Create the following file: main.c:

#include <stdio.h>

extern int yylex();

int main()
{
    int x;
    while((x = yylex()) != 0)
    {
        fprintf(stdout, "Token(%d)\n", x);
    }
}

Build it:

$ bison -d y.y
y.y: conflicts: 1 shift/reduce
$ flex l.l
$ gcc main.c lex.yy.c
$ ./a.out
123foo
123Token(259)
fooToken(258)

Yes it split it into two tokens.

回复收藏 0 原文

萌能量女王 2024-10-10 18:27:12

本质上是每个标记类型的词法规则都是贪婪的。例如，字符序列 foo= 不能解释为单个标识符，因为标识符不包含符号。另一方面，123abc 实际上是一个数字常量，尽管格式错误，因为数字常量可以以用于表示数字常量类型的字母字符序列结尾。

回复收藏 0 原文

一张白纸 2024-10-10 18:27:12

您将无法使用 lex 和 yacc 解析 C++，因为它是一个不明确的语法。您需要一种更强大的方法，例如 GLR 或一些在运行时修改词法分析器的黑客解决方案（这就是当前大多数 C++ 解析器正在做的事情）。

看看艾尔莎/猎鹿犬。

回复收藏 0 原文

~没有更多了~

关于作者

悍妇囚夫

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

解析 C/C++来源： lex/yacc 中如何指定令牌边界/交互？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

解析 C/C++来源： lex/yacc 中如何指定令牌边界/交互？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。