自动生成 HTTP 屏幕抓取 Java 代码

发布于 2024-07-11 00:09:32 字数 440 浏览 5 评论 0原文

我需要从网站上筛选一些数据，因为无法通过他们的网络服务获得这些数据。当我以前需要这样做时，我自己使用 Apache 的 HTTP 客户端库编写了 Java 代码，以进行相关的 HTTP 调用来下载数据。我通过在使用 Charles Web 代理记录相应的 HTTP 调用。

正如您可以想象的那样，这是一个相当乏味的过程，我想知道是否有一个工具可以真正生成与浏览器会话相对应的 Java 代码。我预计生成的代码不会像手动编写的代码那么漂亮，但我总是可以事后整理它。有谁知道这样的工具是否存在？ Selenium 是我知道的一种可能性，尽管我不确定它是否支持这个确切的用例。

谢谢，大学教师

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

栀梦 2024-07-18 00:09:32

我还会为 HtmlUnit 添加+1，因为它的功能非常强大：如果您需要“就像真正的浏览器正在抓取和使用页面一样”的行为，那么这绝对是可用的最佳选择。 HtmlUnit 执行（如果您愿意）页面中的 Javascript。

目前它对所有主要 Javascript 具有全功能支持库并将使用它们执行 JS 代码。与此相对应，您可以在测试中以编程方式获取页面中 Javascript 对象的句柄。

然而，如果您想要做的事情的范围较小，更多的是阅读一些 HTML 元素并且您不太关心 Javascript，那么使用 NekoHTML 应该足够了。它类似于 JDom 提供对树的编程访问（而不是 XPath）。您可能需要使用 Apache 的 HttpClient 来检索页面。

回复收藏 0 原文

陪你搞怪i 2024-07-18 00:09:32

manageability.org 博客有一个条目，其中列出了一大堆用于 Java 的网页抓取工具。但是，我现在似乎无法访问它，但我确实在 Google 缓存中找到了纯文本表示在这里。

回复收藏 0 原文

浅忆流年 2024-07-18 00:09:32

您应该看看 HtmlUnit - 它是为测试网站而设计的，但对于屏幕抓取和导航非常有用多个页面。它负责处理 cookie 和其他与会话相关的内容。

回复收藏 0 原文

明媚如初 2024-07-18 00:09:32

我想说我个人喜欢使用 HtmlUnit 和 Selenium 作为我最喜欢的两个屏幕抓取工具。

回复收藏 0 原文

梦魇绽荼蘼 2024-07-18 00:09:32

名为 The Grinder 的工具允许您编写会话脚本通过代理访问某个网站。输出是 Python（可在 Jython 中运行）。

回复收藏 0 原文

~没有更多了~

关于作者

暖伴

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

自动生成 HTTP 屏幕抓取 Java 代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

自动生成 HTTP 屏幕抓取 Java 代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。