当前位置：文江博客话题详情

Python 中的词法分析、标记化和解析资源

发布于 2024-07-04 04:22:22 字数 779 浏览 8 评论 0 原文

人们可以向我指出有关使用 Python 进行词法分析、解析和标记化的资源吗？

我正在对一个开源项目 (hotwire) 进行一些修改，并想做一些更改词法的代码、解析并标记输入的命令进去。由于它是真正的工作代码，因此相当复杂并且有点难以计算。

我之前没有研究过 lex/parse/tokenise 的代码，所以我认为一种方法是完成一两个关于这方面的教程。我希望学到足够的知识来浏览我真正想要更改的代码。那里有什么合适的吗？（理想情况下，它可以在一个下午完成，而不必先购买和阅读龙书...）

编辑：（2008 年 10 月 7 日）以下答案都没有给出我想要的。有了它们，我可以从头开始生成解析器，但我想学习如何从头开始编写我自己的基本解析器，而不是使用 lex 和 yacc 或类似工具。完成此操作后，我可以更好地理解现有代码。

那么有人可以给我指一个教程，让我可以只使用 python 从头开始构建一个基本的解析器吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沦落红尘 2024-07-11 04:22:22

我建议 http://www.canonware.com/Parsing/，因为它是纯 python 并且您不需要学习语法，但它的使用并不广泛，并且文档相对较少。重量级的是ANTLR和PyParsing。 ANTLR 也可以生成 java 和 C++ 解析器，以及 AST walkers，但您必须学习什么相当于一门新语言。

回复收藏 0 原文

任谁 2024-07-11 04:22:22

查看标准模块 shlex 并修改它的一个副本以匹配您用于 shell 的语法，这是一个很好的起点

如果您想要词法分析/解析的完整解决方案的所有功能，ANTLR 也可以生成 python。

回复收藏 0 原文

残疾 2024-07-11 04:22:22

Frederico Tomassetti 对从 BNF 到二进制解密相关的所有内容进行了很好（但简短）的简洁写作：

词法、
解析器、
抽象语法树 (AST) 和
构造/代码生成器。

他甚至提到了新的解析表达式语法（PEG）。

https://tomassetti.me/parsing-in-python/

回复收藏 0 原文

多孤肩上扛 2024-07-11 04:22:22

pygments 是一个用 python 编写的源代码语法高亮器。它有词法分析器和格式化程序，查看源代码可能会很有趣。

回复收藏 0 原文

辞取 2024-07-11 04:22:22

这里有一些可以帮助您入门的东西（大致从最简单到最复杂，从最不强大到最强大）：

http://en.wikipedia.org/wiki/Recursive_descent_parser

< a href="http://en.wikipedia.org/wiki/Top-down_parsing" rel="noreferrer">http://en.wikipedia.org/wiki/Top-down_parsing

http://en.wikipedia.org/wiki/LL_parser

http://effbot.org/zone/simple-top-down-parsing.htm

http://en. wikipedia.org/wiki/Bottom-up_parsing

http://en.wikipedia.org/wiki/LR_parser

http://en.wikipedia.org/wiki/ GLR_parser

当我学习这些东西时，是在一个学期的 400 级大学课程中。我们做了很多手工解析的作业；如果您想真正了解幕后发生的事情，我建议您采用相同的方法。

这不是我用的书，但相当不错：编译器设计原理。

希望这足以让您开始:)

回复收藏 0 原文

流殇 2024-07-11 04:22:22

这个问题已经很老了，但也许我的回答会对那些想学习基础知识的人有所帮助。我觉得这个资源非常好。它是一个用 python 编写的简单解释器，无需使用任何外部库。因此，这将帮助任何想要了解解析、词法分析和标记化内部工作的人：

“A Simple Intepreter from Scratch in Python:” 第 1 部分，第 2 部分,
第 3 部分，以及第 4 部分。

回复收藏 0 原文

梦幻的心爱 2024-07-11 04:22:22

对于中等复杂的语法， PyParsing 非常出色。您可以直接在 Python 代码中定义语法，无需生成代码：（

>>> from pyparsing import Word, alphas
>>> greet = Word( alphas ) + "," + Word( alphas ) + "!" # <-- grammar defined here
>>> hello = "Hello, World!"
>>>> print hello, "->", greet.parseString( hello )
Hello, World! -> ['Hello', ',', 'World', '!']

示例取自 PyParsing 主页）。

通过解析操作（触发特定语法规则时调用的函数），您可以将解析直接转换为抽象语法树或任何其他表示形式。

有许多辅助函数封装了重复出现的模式，例如运算符层次结构、带引号的字符串、嵌套或 C 风格注释。

For medium-complex grammars, PyParsing is brilliant. You can define grammars directly within Python code, no need for code generation:

>>> from pyparsing import Word, alphas
>>> greet = Word( alphas ) + "," + Word( alphas ) + "!" # <-- grammar defined here
>>> hello = "Hello, World!"
>>>> print hello, "->", greet.parseString( hello )
Hello, World! -> ['Hello', ',', 'World', '!']

(Example taken from the PyParsing home page).

With parse actions (functions that are invoked when a certain grammar rule is triggered), you can convert parses directly into abstract syntax trees, or any other representation.

There are many helper functions that encapsulate recurring patterns, like operator hierarchies, quoted strings, nesting or C-style comments.

回复收藏 0 原文

不知所踪 2024-07-11 04:22:22

我是 PLY 的快乐用户。它是 Lex & 的纯 Python 实现。 Yacc，有很多小细节，使其非常 Pythonic 且易于使用。自从莱克斯& Yacc 是最流行的词法分析和词法分析。 PLY 是解析工具，并且被用于大多数项目，它具有站在巨人肩膀上的优势。 Lex & 网上有很多知识。 yacc，你可以自由地将它应用到PLY中。

PLY 还有一个很好的文档页面，其中包含一些简单的示例来帮助您入门。

有关大量 Python 解析工具的列表，请参阅此。

回复收藏 0 原文

~没有更多了~

关于作者

山田美奈子

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

Python 中的词法分析、标记化和解析资源

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

Python 中的词法分析、标记化和解析资源

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。