当前位置：文江博客话题详情

使用 Java 进行网页抓取

发布于 2024-09-08 11:22:18 字数 139 浏览 1 评论 0原文

我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的网站也没有提供任何API；我想使用一些 pageID 迭代所有网页，并提取 DOM 树中的 HTML 标题/其他内容。

除了网页抓取之外还有其他方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浅黛梨妆こ 2024-09-15 11:22:18

jsoup

提取标题并不困难，并且您有很多选择，请在 Stack Overflow 上搜索“Java HTML 解析器”。其中之一是 Jsoup。

如果您了解页面结构，则可以使用 DOM 导航页面，请参阅
http://jsoup.org/cookbook/extracting-data/dom-navigation

这是一个很好的库，我在最近的项目中使用了它。

回复收藏 0 原文

水溶 2024-09-15 11:22:18

最好的选择是使用 Selenium Web Driver，因为它

为编码人员提供视觉反馈（查看正在执行的抓取操作，查看停止的位置）
准确且一致，因为它直接控制您使用的浏览器。
慢。不像 HtmlUnit 那样点击网页，但有时你不想点击太快。
Htmlunit 速度很快，但在处理 Javascript 和 AJAX 方面却很糟糕。

回复收藏 0 原文

和我恋爱吧 2024-09-15 11:22:18

HTMLUnit可以用来做网页抓取，它支持调用页面、填充和抓取。提交表格。我已经在我的项目中使用了这个。这是一个很好的用于网页抓取的java库。
阅读此处了解更多

回复收藏 0 原文

祁梦 2024-09-15 11:22:18

Java 的 mechanize 非常适合这种情况，正如 Wadjy Essam 提到的，它使用 JSoup 来实现 HMLT。 mechanize 是一个阶段式 HTTP/HTML 客户端，支持导航、表单提交和页面抓取。

http://gistlabs.com/software/mechanize-for-java/（和GitHub 此处 https://github.com/GistLabs/mechanize）

回复收藏 0 原文

時窥 2024-09-15 11:22:18

还有 Jaunt Java Web Scraping & JSON 查询 - http://jaunt-api.com

回复收藏 0 原文

中性美 2024-09-15 11:22:18

您可以查看 jwht-scraper！

这是一个完整的抓取框架，具有开发人员期望从网络抓取中获得的所有功能：

代理支持
警告标志支持检测验证码等
复杂链接跟踪功能
多线程
需要时的各种抓取延迟
轮换用户代理
请求自动重试和 HTTP 重定向支持
HTTP 标头、cookie 和更多支持
< a href="https://github.com/whimtrip/jwht-scraper#parameter-method-" rel="nofollow noreferrer">GET 和 POST 支持
注释配置
详细抓取指标
抓取客户端的异步处理< /a>
jwht-htmltopojo 全功能框架，用于将 HTML 映射到 POJO
自定义输入格式处理和内置 JSON -> POJO 映射
完整的异常处理控制
使用 log4j 进行详细日志记录
POJO 注入
自定义处理钩子
易于使用且文档齐全的 API

它与 (jwht-htmltopojo)[https://github.com/whimtrip/jwht-htmltopojo) lib 配合使用使用其他几个人提到的 Jsoup 这里。

它们将帮助您构建出色的抓取工具，将 HTML 直接映射到 POJO，并在几分钟内绕过任何经典的抓取问题！

希望这可以帮助这里的一些人！

免责声明，我是它的开发者，请随时让我知道您的言论！

回复收藏 0 原文

゛清羽墨安 2024-09-15 11:22:18

查看 HTML 解析器，例如 TagSoup、HTMLCleaner 或 NekoHTML。

回复收藏 0 原文

我不会写诗 2024-09-15 11:22:18

如果您希望自动抓取大量页面或数据，那么您可以尝试 Gotz ETL。

它像真正的 ETL 工具一样完全由模型驱动。数据结构、任务工作流和要抓取的页面是使用一组 XML 定义文件定义的，无需编码。可以使用带有 JSoup 的选择器或带有 HtmlUnit 的 XPath 来编写查询。

回复收藏 0 原文

辞别 2024-09-15 11:22:18

对于此类任务，我通常使用 Crawler4j + Jsoup。

使用crawler4j，我从域下载页面，您可以使用正则表达式指定哪个ULR。

我用jsoup“解析”了你用crawler4j搜索并下载的html数据。

通常你也可以使用 jsoup 下载数据，但 Crawler4J 可以更轻松地查找链接。
使用crawler4j的另一个优点是它是多线程的，您可以配置并发线程数

https://github .com/yasserg/crawler4j/wiki

回复收藏 0 原文

情泪▽动烟 2024-09-15 11:22:18

通常我使用selenium，这是一个用于测试自动化的软件。
您可以通过网络驱动程序控制浏览器，因此您不会遇到 JavaScript 问题，并且如果您使用完整版本，通常不会被检测到。无头浏览器可以更容易被识别。

回复收藏 0 原文

~没有更多了~

关于作者

小兔几

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

使用 Java 进行网页抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

jsoup

jsoup

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

使用 Java 进行网页抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

jsoup

jsoup

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。