如何使用java在不严格的HTML中进行搜索?

发布于 2024-12-05 22:22:45 字数 100 浏览 0 评论 0原文

我有一个连接到远程站点并搜索 HTML 中的某些元素的服务,传入的数据约为 100-200kbytes,但用字符串解析它非常慢。我想要一些关于快速框架的建议......所以有一个吗???

I have a service that connects to remote site and searches for some elements in the HTML, the incomming data is abount 100-200kbytes but parsing it with strings is sooooooooo slow. I want some suggestions for fast framework... so any one???

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

小情绪 2024-12-12 22:22:45

1) 如果您能承受大约 1Mb 内存使用量将 html 解析为 DOM 树,您可以使用宽容的 html 解析器(例如 NekoHTML)。

2) 否则使用正则表达式提取数据。这会更快,需要更少的内存。但是你必须想出一些好的表达式,并且你将无法提取一些复杂的结构信息。

1) If you can afford about 1Mb memory usage to parse the html into DOM tree you can use tolerant html parsers (NekoHTML, for example).

2) Otherwise extract the data using regular expressions. This will be faster, less memory required. But you'll have to come up with some good expressions and you won't be able to extract some sophisticated structure information.

一桥轻雨一伞开 2024-12-12 22:22:45

你可以尝试Tagsoup

you can give a try to Tagsoup

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文