处理特殊实体，如 & nbsp; , &磅;在 HtmlCleaner 中

发布于 2024-10-05 09:03:53 字数 453 浏览 2 评论 0原文

我正在使用 HtmlCleaner 库进行 html 内容提取。它工作得相当好，但有一些限制。

它无法处理特殊字符，例如 &pound 或引号等。例如对于网址：http： //www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html，在给出价格的 xpath 时，它给了我“& pound;” ”代替 £

是否有我们可以在 htmlcleaner 中设置的任何属性来处理此或任何其他解决方案。

谢谢

吉腾德拉

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

秋千易 2024-10-12 09:03:53

不，我不相信 HtmlCleaner 可以做到这一点。但是，您可以使用 Apache Commons StringEscapeUtils 对 html 进行“转义”，如下所示：

StringEscapeUtils.unescapeHtml("£679.00");

将产生 £679.00。

我建议您尝试 JSoup，而不是 HtmlCleaner。

No, I don't believe HtmlCleaner can do this. However, you can use Apache Commons StringEscapeUtils to "unescape" the html, like this:

StringEscapeUtils.unescapeHtml("£679.00");

will produce £679.00.

Instead of HtmlCleaner, I would recommend you try JSoup.

回复收藏 0 原文

维持三分热 2024-10-12 09:03:53

我使用的 htmlcleaner 版本是 2.2，org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true) 对我很有用。虽然我必须使用 string.replace(" ", " ") 来使我得到的 html 内容完全正确。

回复收藏 0 原文

夜未央樱花落 2024-10-12 09:03:53

现在可以通过 org.htmlcleaner.CleanerProperties - setTransSpecialEntitiesToNCR(true) 来完成此操作。

回复收藏 0 原文

~没有更多了~

关于作者

遗失的美好

暂无简介

0 文章

0 评论

23 人气

关注发私信

金兰素衣

文章 0 评论 0

关注

ゃ人海孤独症

文章 0 评论 0

关注

没有感情的刽子手

文章 0 评论 0

关注

一枫情书

文章 0 评论 0

关注

清晰传感

文章 0 评论 0

关注

mb_XvqQsWhl

文章 0 评论 0

友情链接

文江博客

处理特殊实体，如 & nbsp; , &磅;在 HtmlCleaner 中

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者