Java 解析器 HTML 使用纯字符串方法?
这是个好主意吗?嗯,我使用过其他第 3 方库,如 JSoup,它工作得很好,但对于这个项目来说它是不同的。当您只想从中获取一项时,加载和解析整个文档是否值得?有些html页面也很简单,所以我也可以使用String方法。原因是内存会成为一个问题,并且加载文档也需要一些时间。解析 XML 时,我总是使用 SAX 解析器,因为它不会将其加载到内存中,而且速度很快。我可以在 html 文档上使用同样的东西吗?或者已经有这样的东西了吗?因此,如果有一个非 DOM HTML 轻量级解析器,那就太好了。
Is it a good idea? Well I have used other 3rd party Libraries like JSoup and it works great, but for this project it's different. Is it worth it to load and parse a whole document when you just want to get one item from it? Some of the html pages are simple too, so I could use String methods too. Reason is cause memory will be an issue, and it also takes some time to load the document too. When parsing XML I always use a SAX Parser because it doesn't load it in memory and it is fast. Could I use the same thing on html documents, or is there already one like this out there? So if there is a non-DOM HTML lightweight parser, that would be great too.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果 HTML 符合 XML(即 XHTML),那么您可以使用标准 SAX 解析器。在这里您可以找到 Java 中的 HTML 解析器列表以供选择: http://java- source.net/open-source/html-parsers。 HotSax 可能会处理您的所有用例。
If the HTML is XML compliant (i.e. it's XHTML) then you can use a standard SAX parser. Here you can find a list of HTML parsers in Java to choose from: http://java-source.net/open-source/html-parsers. HotSax probably will handle all your use cases.