在 PHP 中解析 Wikipedia 标记的最佳方法是什么？

发布于 2024-12-22 21:07:59 字数 811 浏览 1 评论 0原文

我正在尝试以结构化的方式解析特定的维基百科内容。这是一个示例页面：

http://en.wikipedia.org/wiki/Polar_bear

我是取得了一些成功。我可以检测到该页面是一个“specie”页面，并且我还可以将 Taxobox（右侧）信息解析为结构。到目前为止，一切都很好。

不过，我也在尝试解析文本段落。这些由 API 以 Wiki 格式或 HTML 格式返回，我目前正在使用 Wiki 格式。

我可以阅读这些段落，但我想以特定的方式“清理”它们，因为最终我将不得不在我的应用程序中显示它，并且它没有 Wiki 标记的意义。例如，我想删除所有图像。通过过滤掉 [[Image:]] 块，这相当容易。然而，也有一些我根本无法删除的块，例如：

删除整个块会破坏句子。像这样具有特殊含义的符号有几十种。我想避免编写 100 个正则表达式来处理所有这些，并看看如何以更智能的方式解析它。

我的困境如下：

我可以继续我当前的半结构化解析路径删除不需要的元素以及“模仿”有很多工作确实需要渲染的模板。
或者，我可以从渲染的 HTML 输出开始并解析它，但我担心以结构化方式解析它同样脆弱和复杂理想

情况下，有一个库可以解决这个问题，但我还没有找到一个这取决于这份工作。我还查看了结构化维基百科数据库，例如 DBPedia，但它们仅具有与我已有的结构相同的结构，它们在维基文本本身中不提供任何结构。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

望喜 2024-12-29 21:07:59

使用的模板太多，无法手动重新实现所有模板，而且它们一直在变化。因此，您将需要能够处理所有模板的 wiki 语法的实际解析器。

而且 wiki syxtax 非常复杂，有很多怪癖并且没有正式的规范。这意味着创建您自己的解析器将是一项繁重的工作，您应该使用 MediaWiki 中的解析器。

因此，我认为通过 MediaWiki API 获取解析的 HTML 是最好的选择。

可能更容易从 wiki 标记解析的一件事是信息框，所以也许它们应该是一种特殊情况。

回复收藏 0 原文

~没有更多了~

关于作者

我不是你的备胎

暂无简介

文章

27 人气

关注发私信

知足的幸福

文章 0 评论 0

关注

我一向站在原地

文章 0 评论 0

关注

慕烟庭风

文章 0 评论 0

关注

秉忠贞之诚守退让之实

文章 0 评论 0

关注

小兔几

文章 0 评论 0

关注

mb_3y7WUgWY

文章 0 评论 0

友情链接

文江博客

在 PHP 中解析 Wikipedia 标记的最佳方法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签