Java 解析器 HTML 使用纯字符串方法?

发布于 2025-01-08 07:24:52 字数 254 浏览 0 评论 0原文

这是个好主意吗?嗯,我使用过其他第 3 方库,如 JSoup,它工作得很好,但对于这个项目来说它是不同的。当您只想从中获取一项时,加载和解析整个文档是否值得?有些html页面也很简单,所以我也可以使用String方法。原因是内存会成为一个问题,并且加载文档也需要一些时间。解析 XML 时,我总是使用 SAX 解析器,因为它不会将其加载到内存中,而且速度很快。我可以在 html 文档上使用同样的东西吗?或者已经有这样的东西了吗?因此,如果有一个非 DOM HTML 轻量级解析器,那就太好了。

Is it a good idea? Well I have used other 3rd party Libraries like JSoup and it works great, but for this project it's different. Is it worth it to load and parse a whole document when you just want to get one item from it? Some of the html pages are simple too, so I could use String methods too. Reason is cause memory will be an issue, and it also takes some time to load the document too. When parsing XML I always use a SAX Parser because it doesn't load it in memory and it is fast. Could I use the same thing on html documents, or is there already one like this out there? So if there is a non-DOM HTML lightweight parser, that would be great too.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

も让我眼熟你 2025-01-15 07:24:52

如果 HTML 符合 XML(即 XHTML),那么您可以使用标准 SAX 解析器。在这里您可以找到 Java 中的 HTML 解析器列表以供选择: http://java- source.net/open-source/html-parsers。 HotSax 可能会处理您的所有用例。

If the HTML is XML compliant (i.e. it's XHTML) then you can use a standard SAX parser. Here you can find a list of HTML parsers in Java to choose from: http://java-source.net/open-source/html-parsers. HotSax probably will handle all your use cases.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文