用于像浏览器一样清理 HTML 的 Java 库

发布于 2024-11-09 18:03:03 字数 602 浏览 0 评论 0原文

所以这就是挑战......我需要从野外的随机网页创建干净的 HTML。我的目标是读入一个页面并将其传递给一个库，该库反过来会返回格式完美的 HTML。

听起来没那么难，对吧？毕竟，市场上的每个浏览器都有效地应对了格式错误的 HTML 的挑战，并将其转换为几乎每次页面加载时都可呈现的内容。每个都有自己稍微特殊的算法来清理内容（咳咳......对于 HTML < 5），但它们往往能够很好地捕捉我喜欢称之为作者的意图。那么，为什么我不能找到一个好的 java 库来完成这个任务呢？

值得一提的是，我对将 HTML 解析为 XML 一点也不感兴趣。我发现 NekoHTML、TagSoup、HtmlCleaner 和 JTidy（仅举几例）等库更专注于解决将 HTML 转换为有效 XML 的问题，而在这个过程中，他们忽视了如何糟糕地-格式化文档应重新构建。使用令人讨厌的 HTML，它们经常无法捕捉作者的意图，并生成与原始源代码完全不同的文档。对于这个项目来说，最重要的是两个文档的呈现相似。

我非常喜欢 Jericho HTML，但它似乎不是这项工作的理想选择……至少在我没有付出很多努力的情况下是这样。此外，本机依赖项是不行的，因此 mozilla 解析器已经过时了。

谁能帮我寻找完美的 HTML 解析器？提前致谢！

原文

分享到QQ

分享到微博