解析 wikimedia 标记 - 基于 EBNF 的解析器是否不太适合？

发布于 2024-07-26 11:57:46 字数 812 浏览 24 评论 0原文

我正在尝试解析（在Java中）维基百科上找到的维基媒体标记。有许多现有的软件包可以完成此任务，但我还没有找到任何可以特别满足我的需求的软件包。我使用过的最好的软件包是 Mathclipse Bliki 解析器，它在大多数情况下都做得不错页。

然而，该解析器并不完整，无法解析某些页面或无法正确解析其他页面。遗憾的是，代码相当混乱，因此解决这个解析引擎中的问题非常耗时且容易出错。

为了寻找更好的解析引擎，我研究了使用基于 EBNF 的解析器来完成此任务（特别是 ANTLR）。然而，经过一番尝试后，这种方法似乎不太适合这项任务，因为维基媒体标记相对宽松，因此无法轻松适应结构化语法。

然而，我对 ANTLR 和类似解析器的经验非常有限，因此可能是我的经验不足导致了问题，而不是此类解析器本质上不适合此任务。在这些主题上有更多经验的人可以在这里发表意见吗？

@Stobor：我已经提到我已经研究过各种解析引擎，包括谷歌查询返回的引擎。迄今为止我发现的最好的是Bliki 引擎。问题在于，使用此类解析器解决问题变得非常乏味，因为它们本质上都是条件语句和正则表达式的长链，导致意大利面条式代码。我正在寻找更类似于 EBNF 解析方法的方法，因为该方法更清晰、更简洁，因此更容易理解和发展。我已经看到了您发布的 mediawiki 链接，它似乎证实了我的怀疑，即开箱即用的 EBNF 不太适合这项任务。因此，我正在寻找一个像 EBNF 一样清晰易懂的解析引擎，但也能够处理 wiki 标记的混乱语法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无风消散 2024-08-02 11:57:46

如果不使用 mediawiki 本身，解析任何一般意义上的 mediawiki 内容几乎是不可能的。为了解析它，您需要能够完全解析 HTML 和 CSS（因为它们可以嵌入），并处理完整的模板实例化和扩展，以及相关内容可能使用的任何解析器添加。该模板实例化相当于一个预处理器。

它在某种意义上类似于解析 C++，只不过解析器还处理格式错误的输入和由解析器扩展进行的任意语法添加。实际的 mediawiki 实现很像 Perl 5，最初的实现并没有那么糟糕，因为所有的边缘情况都会出现，但是事情是链接在一起的，但实际上让任何后续实现来做同样的事情确实很复杂，特别是因为行为通常是突发的、没有记录的，而不是经过设计的。

如果您不需要 100% 的页面才能工作或能够提取所有内容，您也许可以拼凑出一些适合您的内容，正如您所注意到的，有一些软件包可以做到这一点。在不了解您实际的精确需求的情况下，我怀疑任何人都可以就如何解析它为您提供更好的答案。如果您需要能够处理每个页面并正确解析所有内容，那么您最好拥有一个相当大的团队和几年的工作时间，即使如此，您仍然有很多小的边缘情况。

简而言之，没有一个 EBNF 语法不太适合解析 mediawiki 标记，但实际上没有什么是......

回复收藏 0 原文