当前位置：文江博客话题详情

用 python 编写一个快速解析器

发布于 2024-08-30 20:37:30 字数 583 浏览 9 评论 0原文

我已经为某些文件格式编写了一个实用的递归纯Python解析器（ARFF）我们在一个讲座中使用。现在运行我的练习提交非常慢。事实证明，到目前为止，大部分时间都花在我的解析器上。它消耗了大量的CPU时间，HD不是瓶颈。

我想知道用 python 编写解析器有什么高性能的方法？我不想用 C 重写它。我尝试使用 jython，但这会大大降低性能！我解析的文件部分很大（> 150 MB），并且行很长。

我当前的解析器只需要前瞻一个字符。我会在这里发布源代码，但我不知道这是否是一个好主意。毕竟提交截止日期还没有结束。但是，这个练习的重点不是解析器。您可以选择您想要使用的任何语言，并且已经有一个用于 Java 的解析器。

注意：我有一个 x86_64 系统，所以 psyco （似乎也是 PyPy）是没有选择的。

更新：我现在将解析器/写入器上传到 bitbucket。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

远昼 2024-09-06 20:37:30

在没有更多信息的情况下，我给出的最一般的提示是立即将整个文件或至少其中的很大一部分读入内存。你不想一次读一个字符并到处寻找;不管幕后发生的缓冲如何，将整个内容都存储在内存中可能是一个好主意，这样您就可以根据需要对其进行操作。

我已经用 Python 编写了解析器，并且没有特别要求它们比用任何其他语言编写的解析器特别慢。与此类事情一样，您更有可能正在做不需要做的工作。在这些类别的项目中，创建、销毁和重新创建同一个对象比仅仅将其存储在某个地方的成本更高。一遍又一遍地重新计算一个值比仅仅将其存储在某个地方的成本更高。等等。

具体来说，在 Python 中，人们容易陷入的一个陷阱是进行大量不必要的字符串操作。不要一次向字符串追加一个字符；当您构建令牌时，请在“master”字符串上进行工作并一次性删除令牌。（换句话说，索引到“master”字符串，找出起点和终点，然后使用 token = master[start:end] 抓取它。）时间是导致绩效痛苦的捷径。我怀疑，即使您出于某种原因想要/需要执行 for c in master: newstr += c ，您可能会更幸运地将 'c' 填充到列表中，然后 newstr = '' .join(newstr_charlist)。