当前位置：文江博客话题详情

Ruby WIKI nokogiri

使用修改后的 Nokogiri 来解析维基文本？

发布于 2025-01-02 11:25:34 字数 772 浏览 3 评论 0原文

对于这个问题的长度表示歉意，这更多的是“这可能吗”而不是“我该怎么做”。

我的目标是从维基百科标记中删除除纯文本之外的所有内容——表格、模板、格式。这些是否在wiki文本标记中（例如''粗体文本'' ）或 HTML（粗体文本）。

维基百科文本是自定义标签的组合：模板 {{ ... }}、表格 {| ... |}、链接 [[ ... ]] 和 HTML 元素。解析它有点像一场噩梦。您不能使用正则表达式，因为标签可以嵌套，并且它可以包含 HTML，因此几乎任何事情都是可能的。我想保留 HTML 中的一些文本（粗体文本中的内容），但其他内容（例如表格）需要完全删除。

我考虑过重新利用像 Nokogiri 这样的 XML 解析器，添加 {{/}} 作为 /的替代品。

任何了解 Nokogiri（或另一个 Ruby XML 解析器）的人都知道这是否可行，甚至是一个好主意吗？

我的替代方案是重新调整现有解析器的用途，例如用于 wiki 标记的 WikiCloth，然后尝试删除任何剩余的 HTML通过另一种方法。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

无人问我粥可暖 2025-01-09 11:25:34

这听起来是个好主意。但是，您无法“修补”Nokogiri，“添加 {{/}} 作为 //的替代方案代码>”。这是因为 Nokogiri 完成的大部分工作（解析和 XPath 以及生成 DOM 的字符串表示形式）实际上是由 libxml2< 完成的/a> 在后端。您必须修补并重新编译 libxml2（然后根据您的新版本重建 Nokogiri）……但那时我不知道 Nokogiri 会如何表现。

您可能会更幸运地尝试修补 REXML，因为它是用纯 Ruby 编写的。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

凯凯我们等你回来

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文