如何用Java有效地解析HTML？

发布于 2025-01-31 08:29:48 字数 327 浏览 3 评论 0 原文

我在工作中进行了很多HTML解析。到目前为止，我一直在使用HTMLUNIT无头浏览器来解析和浏览器自动化。

现在，我想分开两个任务。

我想使用轻型HTML解析器，因为在HTMLUNIT中需要大量时间才能首先加载页面，然后获取源，然后将其解析。

我想知道哪些HTML解析器可以有效地解析HTML。我需要

易于速度
来通过其“ ID”或“名称”或“标签类型”来找到任何HTMLELEMENT。

如果不清洁脏HTML代码，对我来说是可以的。我不需要清洁任何HTML源。我只需要最简单的方法来跨越HTMLELEMENT并从中收集数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

指尖凝香 2025-02-07 08:29:48

jsoup

自插头：我刚刚发布了一个新的Java html解析器： jsoup 。我在这里提到它，因为我认为它会做你的事。

它的派对技巧是CSS选择器语法以查找元素，例如：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

请参阅 selector Javadoc以获取更多信息。

这是一个新项目，因此非常欢迎任何改进的想法！

jsoup

Self plug: I have just released a new Java HTML parser: jsoup. I mention it here because I think it will do what you are after.

Its party trick is a CSS selector syntax to find elements, e.g.:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

See the Selector javadoc for more info.

This is a new project, so any ideas for improvement are very welcome!

回复收藏 0 原文

我家小可爱 2025-02-07 08:29:48

到目前为止，我看到的最好的是 htmlCleaner ：

HTMLCleaner是用Java编写的开源HTML解析器。在Web上发现的HTML通常很脏，形成不良，不适合进一步处理。对于此类文档的任何严重消费，有必要首先清理混乱，并将订单带入标签，属性和普通文本。对于给定的HTML文档，HTMLCleaner会重新定位单个元素并产生良好的XML。默认情况下，它遵循大多数Web浏览器使用的类似规则来创建文档对象模型。但是，用户可以为标签过滤和平衡提供自定义标签和规则集。

使用HTMLCleaner，您可以使用XPath找到任何元素。

对于其他html解析器，请参见这个问题。