如何用Java高效地解析HTML？

发布于 2024-08-20 04:57:30 字数 362 浏览 7 评论 0原文

我在工作中进行了大量的 HTML 解析。到目前为止，我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。

现在，我想将这两个任务分开。

我想使用轻量级 HTML 解析器，因为在 HTMLUnit 中首先加载页面，然后获取源代码，然后解析它需要花费很多时间。

我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要

Speed
Ease 通过“id”或“名称”或“标签类型”来定位任何 HtmlElement。

如果它不清除脏的 HTML 代码，那对我来说就没问题了。我不需要清理任何 HTML 源代码。我只需要最简单的方法来移动 HtmlElements 并从中获取数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

征﹌骨岁月お 2024-08-27 04:57:30

jsoup

自插件：我刚刚发布了一个新的 Java HTML 解析器：jsoup。我在这里提到它是因为我认为它会做你所追求的事情。

它的技巧是使用 CSS 选择器语法来查找元素，例如：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

请参阅 Selector< /a> javadoc 了解更多信息。

这是一个新项目，因此非常欢迎任何改进的想法！

jsoup

Self plug: I have just released a new Java HTML parser: jsoup. I mention it here because I think it will do what you are after.

Its party trick is a CSS selector syntax to find elements, e.g.:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

See the Selector javadoc for more info.

This is a new project, so any ideas for improvement are very welcome!

回复收藏 0 原文

夏末的微笑 2024-08-27 04:57:30

到目前为止我见过的最好的是 HtmlCleaner：

HtmlCleaner 是用 Java 编写的开源 HTML 解析器。 Web 上的 HTML 通常是脏的、格式错误的并且不适合进一步处理。对于此类文档的任何严重消耗，有必要首先清理混乱并为标签、属性和普通文本带来顺序。对于给定的 HTML 文档，HtmlCleaner 会对各个元素重新排序并生成格式良好的 XML。默认情况下，它遵循大多数 Web 浏览器用于创建文档对象模型的类似规则。但是，用户可以提供自定义标签和规则集以进行标签过滤和平衡。

借助 HtmlCleaner，您可以使用 XPath 定位任何元素。

对于其他 html 解析器，请参阅这个问题。

回复收藏 0 原文