当前位置：文江博客话题详情

HtmlCleaner 如何处理网页中的 Iframe

发布于 2024-11-27 15:23:56 字数 747 浏览 6 评论 0原文

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是此 eBay 产品页面。

当我打印此页面的 HtmlCleaner 输出时，我发现一些 iframe 标签完好无损，而另一些则丢失。丢失的 iframe 之一是 id="d" 的 iframe。它包含产品描述，其正文已合并到主页中。

html clean 的 XML 输出： http://pastebin.com/03f9gtdC

任何人都可以看看它，或者提出建议一些更好的 HTML 解析库，能够优雅地处理 iframe。该库应该能够支持 XPath 评估。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

暂无简介

文章

26 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0