Antlr（词法分析器）：匹配正确的标记

发布于 2024-09-27 08:28:08 字数 551 浏览 10 评论 0原文

在我的 Antlr3 语法中，我有几个“重叠”的词法分析器规则，如下所示：

NAT: ('0' .. '9')+ ;
INT: ('+' | '-')? ('0' .. '9')+ ;
BITVECTOR: ('0' | '1')* ;

虽然像 100110 和 123 这样的标记可以与多个规则匹配，但它是总是由上下文决定它必须是其中的哪一个。示例：

s: a | b | c ;
a: '<' NAT '>' ;
b: '{' INT '}' ;
c: '[' BITVECTOR ']' ;

输入 {17} 应匹配 {、INT 和 }，但词法分析器已经确定 17 是 NAT 令牌。我怎样才能防止这种行为？ backtrack 选项已设置为 true，但它似乎只影响解析器规则。

原文

In my Antlr3 grammar, I have several "overlapping" lexer rules, like this:

NAT: ('0' .. '9')+ ;
INT: ('+' | '-')? ('0' .. '9')+ ;
BITVECTOR: ('0' | '1')* ;

Although tokens like 100110 and 123 can be matched by more than one of those rules, it is always determined by context which of them it has to be. Example:

s: a | b | c ;
a: '<' NAT '>' ;
b: '{' INT '}' ;
c: '[' BITVECTOR ']' ;

The input {17} should then match {, INT, and }, but the lexer has already decided that 17 is a NAT-token. How can I prevent this behavior? The backtrack option is already set to true, but it only seems to affect parser rules.