当前位置：文江博客话题详情

ANTLR 解析器问题

发布于 2024-08-22 19:56:01 字数 514 浏览 4 评论 0原文

我正在尝试解析许多文本记录，其中记录中的元素由“+”字符分隔，整个记录由“#”字符终止。例如，E1+E2+E3+E4+E5+E6#

各个元素可以是必需的，也可以是可选的。如果一个元素是可选的，那么它的值就丢失了。例如，如果缺少 E2，则输入字符串将为：E1++E3+E4+E5+E6#。

然而，在处理空尾随元素时，分隔符字符（“+”）也可能会丢失。例如，如果缺少最后 3 个元素，则字符串可能是：E1+E2+E3#，但也可能是： E1+E2+E3+++#

我在Antlr中尝试了以下规则：

'R1' 'E1 + E2 + E3' '+'? ‘E4’？ '+'？ ‘E5’？ '+'？ ‘E6’？ '#

但 Antlr 抱怨它含糊不清，当然这是正确的（E3 后面的每个标记都可能是 E4、E5 或 E6）。输入语法是固定的（它来自旧的大型机系统），所以我想知道是否有人可以解决这个问题？

另一种方法是在规则中指定所有不同的排列，但这将是一项主要任务。

致以最诚挚的问候和感谢，

迈克尔

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

面如桃花 2024-08-29 19:56:01

这个任务听起来对 ANTLR 来说太过分了，有什么原因你不使用“+”作为分隔符将字符串分割成数组吗？

如果它来自大型机，则很可能旨在以简单的方式进行处理。

例如，
C++：http://www.cplusplus.com/reference/clibrary/cstring/strtok /
PHP：https://www.php.net/manual/en/function。爆炸.php
Java： http://java.sun.com/javase/6/docs/api/java/lang/String.html#split%28java.lang.String%29
C#：http://msdn. microsoft.com/en-us/library/system.string.split%28VS.71%29.aspx

只是一个想法。

回复收藏 0 原文

何时共饮酒 2024-08-29 19:56:01

如果这是不明确的，可能是因为您的 E 都具有相同的格式（更复杂的情况是您的 E 都以相同的 开头但我假设情况并非如此，这仍然有效；它只需要一个额外的步骤。）

k 个字符，其中 k 是您的前瞻，看起来您最多可以有 6 个 E 和最多 5 个 +。我们会说“段”是一个可选的 E 后跟一个 + - 您可以有 5 个段，以及一个可选的尾部 E。

这个语法可以大致表示如下（不完美的 ANTLR 语法，因为我对它不是很熟悉）：

r : (e_opt? PLUS){1,5} e_opt? END
e_opt : E  // whatever your E is
PLUS : '+'
END : '#'

如果 ANTLR 不支持类似 {1,5} 的内容，那么这与以下内容相同：

(e_opt? PLUS) ((e_opt? PLUS) ((e_opt? PLUS) ((e_opt? PLUS) (e_opt? PLUS)?)?)?)?

这不是那么干净，所以也许有更好的方法来做到这一点。

If this is ambiguous, it's likely because your Es all have the same format (a more complicated case would be that your Es all just start with the same k characters where k is your lookahead, but I'm going to assume that's not the case. If it is, this will still work; it will just require an extra step.)

So it looks like you can have up to 6 Es and up to 5 +s. We'll say a "segment" is an optional E followed by a + - you can have 5 segments, and an optional trailing E.

This grammar can be represented roughly like this (imperfect ANTLR syntax since I'm not very familiar with it):

r : (e_opt? PLUS){1,5} e_opt? END
e_opt : E  // whatever your E is
PLUS : '+'
END : '#'

If ANTLR doesn't support anything like {1,5} then this is the same as:

(e_opt? PLUS) ((e_opt? PLUS) ((e_opt? PLUS) ((e_opt? PLUS) (e_opt? PLUS)?)?)?)?

which is not that clean, so maybe there is a nicer way to do it.

回复收藏 0 原文

~没有更多了~

关于作者

无法言说的痛

暂无简介

0 文章

0 评论

666 人气

关注发私信

友情链接

文江博客

ANTLR 解析器问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

ANTLR 解析器问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。