当前位置：文江博客话题详情

HTML Jsoup parsing Java

用Java解析HTML网页

发布于 2024-11-19 17:22:50 字数 260 浏览 3 评论 0原文

我需要解析/读取大量 HTML 网页（100+）以获取特定内容（几行几乎相同的文本）。

我使用带有 reg 的扫描仪对象。表达式和 jsoup 及其 html 解析器。

这两种方法都很慢，并且使用 jsoup 时出现以下错误： java.net.SocketTimeoutException：读取超时（具有不同连接的多台计算机）

有什么更好的吗？

编辑：

现在我已经让 jsoup 开始工作了，我认为更好的问题是如何加快速度？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

痴情换悲伤 2024-11-26 17:22:51

xpath 是一项值得学习的重要技能。这对那份工作来说是完美的！我刚刚开始自己学习自动化测试。如果您有疑问，请给我留言。尽管我不是专家，但我很乐意为您提供帮助。

既然您对 Java 感兴趣，这里有一个很好的链接：
http://www.ibm.com/developerworks/library/x-javaxpathapi /index.html

当您不使用 Java 时，了解 xpath 也是一件好事，所以这就是我选择该路线的原因。

回复收藏 0 原文

黎夕旧梦 2024-11-26 17:22:50

您是否尝试过延长 JSoup 的超时时间？我相信默认情况下只有 3 秒。请参阅此。

回复收藏 0 原文

┾廆蒐ゝ 2024-11-26 17:22:50

我建议使用 Nutch，这是一个开源 Web 搜索解决方案，包含对 HTML 解析的支持。这是一个非常成熟的图书馆。它在底层使用 Lucene，我发现它是一个非常可靠的爬虫。

回复收藏 0 原文

~没有更多了~

关于作者

别在捏我脸啦

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文