解析“越位” （基于缩进的）语言

发布于 2024-08-20 13:40:30 字数 287 浏览 9 评论 0原文

越位语言是指

...该语言中声明（块）的范围由其缩进表示。

此类语言的示例包括 Python、Boo、Nemerle、YAML 等。

所以我的问题是：我如何实际解析这些？如何解决制表符与空格问题（两个制表符或 8 个空格是否等效）？解析器生成器在这里有什么帮助吗？还是我必须自己手动编写词法分析器/解析器？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不打扰别人 2024-08-27 13:40:30

Python 有一个词法分析器，可以生成Indent 和Dedent 标记，它们相当于大括号（“{”、“}”）。 Stack Overflow 上甚至还有一个示例，其中这种词法分析器的简单实现。

对于制表符与空格，Python 只有一个编码约定：使用 4 个空格每个缩进级别。不过制表符是合法的语法。

回复收藏 0 原文

﹏雨一样淡蓝的深情 2024-08-27 13:40:30

解决制表符与空格问题的最简单方法是禁止空格和制表符的组合（例如，F# 就是这样做的）。任何现代编辑器都允许将制表符转换为一定数量的空格。

至于你是否需要放弃解析器生成器，可能不需要，但你必须在某个地方破解越位标识。这可能需要您发挥一点创造力。根据浏览 F# 源代码，他们似乎使用词法分析后步骤来创建表示越位语言元素的附加标记。

回复收藏 0 原文

过期以后 2024-08-27 13:40:30

如何解决制表符与空格问题（两个制表符或 8 个空格是否等效）？

如果两个制表符等于八个空格，这取决于编辑器的设置。

正如发起者所表达的，越位规则提到了连续两行代码的相对位置，而不是空格的绝对数量。这里是一篇很好的读物，可以帮助您更好地理解（和一些引用）：

“空格在 Python 中很重要
源代码。”
不，一般来说不是。只有
语句的缩进级别
是重要的（即空白处
你的陈述的最左边）。
在其他地方，空白不是
重要且可以用作您
就像，就像任何其他语言一样。
您还可以插入空行
不包含任何内容（或仅包含任意内容）
空白）任何地方。
此外，确切的缩进量
根本不重要，但只有
嵌套块的相对缩进
（相对于彼此）。 [...]

回复收藏 0 原文

疑心病 2024-08-27 13:40:30

就其价值而言，Haskell 也是基于缩进的，并且可以选择 { foo;酒吧;等 } 当空白不方便时。我编写了一个简单的基于缩进的解析器，其中 Parsec，它的目的是读起来像Lisp，但缩进表示运算符应用程序。括号只能在一行中使用。

(aaa bb) cc
         e fffff (ggg hhh) iii
                 jjj kkk
         ddd

这里 aaa 应用于 bb。结果是一个三元函数。它应用于参数cc，e应用于一个参数，以及ddd。了解应用程序如何基于列对齐，而不是 X 空格。

解析器也可能会简单得多。

For what it's worth, Haskell is also indentation-based and optionally { foo; bar; etc } for when whitespace is inconvenient. I wrote a simple indentation-based parser with Parsec, it's indended to read like Lisp but indentation indicates operator application. Parentheses can be only used on one line.

(aaa bb) cc
         e fffff (ggg hhh) iii
                 jjj kkk
         ddd

Here aaa is applied to bb. What results is a ternary function. It is applied to arguments cc, e applied to one argument, and ddd. See how the application is based on column alignment, and not X spaces.

The parser could probably be a lot simpler, too.

回复收藏 0 原文

蓦然回首 2024-08-27 13:40:30

关于制表符和空格，您有多个选项：要么禁止混合制表符和空格，假设制表符与空格的固定比例，要么允许程序员根据每个项目或每个源文件来决定（某种“#pragma tab”） (4)”样式指令允许制表符和/或更改它们代表的空格数）。

像 ANTLR 3 这样的解析器生成器可以轻松应对这个问题；我自己一直在尝试一个示例，编译为其 C# 目标。 DirkGently 的答案中的链接解释了Python算法，该算法将直接写入代码。我的方法只是为空格和换行符定义单独的标记，并覆盖词法分析器使用的“发出标记”函数以动态插入额外的缩进/缩进标记。事实证明，这比我见过的覆盖“获取最后一个令牌”功能的其他方法更容易实现，但两者都效果很好。

回复收藏 0 原文