C/C++，libxml2：解析 HTML 片段

发布于 2025-01-07 04:12:33 字数 570 浏览 4 评论 0原文

我需要解析现实生活中的 HTML 文档。在大多数情况下，它们的结构良好，但有时（并且不能忽略）它们显示为在根级别具有多个同级的片段。
示例：

<div>one</div>
<div>two</div>

现在我使用 libxml2 v2.7.8 和以下解析标志：

HTML_PARSE_NOERROR | HTML_PARSE_RECOVER | HTML_PARSE_NODEFDTD | HTML_PARSE_NOIMPLIED

如果我使用上面的示例提供它，然后从解析的文档中转储 HTML：

<div>one<div>two</div></div>

正如您所看到的，它嵌套了元素，而我的要求是不破坏 HTML。另外，我希望能够在从此类片段创建的树上运行 XPath 表达式。在这种情况下，要到达第二个 DIV，可以使用“/div[2]”。

那么问题是是否可以解析这些类型的 HTML 以及如何解析？

原文

I need to parse real life HTML documents. In most cases they are well formed, but sometimes (and it can not be ignored) they appear as fragments having more than one sibling at the root level.
Example:

<div>one</div>
<div>two</div>

Now I use libxml2 v2.7.8 with the following parse flags:

HTML_PARSE_NOERROR | HTML_PARSE_RECOVER | HTML_PARSE_NODEFDTD | HTML_PARSE_NOIMPLIED

If I feed it with the above example and then dump HTML from the parsed document:

<div>one<div>two</div></div>

As you can see it nests the elements while my requirements are not to break the HTML. Also I'd like to be able to run XPath expression on trees created from such fragments. In this case to get to the second DIV one would use '/div[2]'.

So the question is whether it is possible to parse these kinds of HTML and how?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

絕版丫頭 2025-01-14 04:12:33

我猜你需要 html 到 xml 的转换。在 Java 中我使用 JSoup，但是 stackoverflow 肯定知道如何在 c 中做到这一点。第一个命中：使用 C++ 将 HTML 转换为 XML

回复收藏 0 原文

红尘作伴 2025-01-14 04:12:33

PHP 的 DOM 组件使用 Libxml2。在 PHP 中工作，我发现了以下解决方法：

<?php
echo DOMDocument::loadHTML("<b>Bold</b> <i>Italic</i>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD)->saveHTML();
echo DOMDocument::loadHTML("<div><b>Bold</b> <i>Italic</i>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD)->saveHTML();

输出：

<b>Bold<i>Italic</i></b>
<div><b>Bold</b> <i>Italic</i></div>

因此，对于不可否认的有点老套的答案，只需在输入字符串前面添加

，然后删除

;输出字符串中的 和

。

Libxml2 is used by PHP's DOM component. Working in PHP, I found the following workaround:

<?php
echo DOMDocument::loadHTML("<b>Bold</b> <i>Italic</i>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD)->saveHTML();
echo DOMDocument::loadHTML("<div><b>Bold</b> <i>Italic</i>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD)->saveHTML();

outputs:

<b>Bold<i>Italic</i></b>
<div><b>Bold</b> <i>Italic</i></div>

So for what is undeniably a bit of a hacky answer, just prepend <div> to your input string then remove <div> and </div> from the output string.

回复收藏 0 原文

~没有更多了~

关于作者

因为看清所以看轻

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

C/C++，libxml2：解析 HTML 片段

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

C/C++，libxml2：解析 HTML 片段

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。