如何使用java在不严格的HTML中进行搜索?
我有一个连接到远程站点并搜索 HTML 中的某些元素的服务,传入的数据约为 100-200kbytes,但用字符串解析它非常慢。我想要一些关于快速框架的建议......所以有一个吗???
I have a service that connects to remote site and searches for some elements in the HTML, the incomming data is abount 100-200kbytes but parsing it with strings is sooooooooo slow. I want some suggestions for fast framework... so any one???
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
1) 如果您能承受大约 1Mb 内存使用量将 html 解析为 DOM 树,您可以使用宽容的 html 解析器(例如 NekoHTML)。
2) 否则使用正则表达式提取数据。这会更快,需要更少的内存。但是你必须想出一些好的表达式,并且你将无法提取一些复杂的结构信息。
1) If you can afford about 1Mb memory usage to parse the html into DOM tree you can use tolerant html parsers (NekoHTML, for example).
2) Otherwise extract the data using regular expressions. This will be faster, less memory required. But you'll have to come up with some good expressions and you won't be able to extract some sophisticated structure information.
你可以尝试Tagsoup
you can give a try to Tagsoup