抓取动态网站

发布于 2024-07-07 13:06:12 字数 289 浏览 7 评论 0原文

抓取大部分内容都是由 ajax 请求生成的动态网站的最佳方法是什么？我之前有过使用 Mechanize、BeautifulSoup 和 python 组合的经验，但我准备尝试一些新的东西。

- 编辑 - 有关更多详细信息：我正在尝试抓取 CNN 主数据库。那里有丰富的信息，但似乎没有 api。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

秋心╮凉 2024-07-14 13:06:12

我发现的最佳解决方案是使用 Firebug 监视 XmlHttpRequest，然后使用脚本重新发送它们。

回复收藏 0 原文

只等公子 2024-07-14 13:06:12

这是一个难题，因为您要么必须在每个站点上对 JavaScript 进行逆向工程，要么实现 JavaScript 引擎并运行脚本（这有其自身的困难和陷阱）。

这是一个重量级的解决方案，但我见过人们使用 GreaseMonkey 脚本来做到这一点 - 允许 Firefox 渲染所有内容并运行 JavaScript，然后抓取元素。如果需要，您甚至可以在页面上启动用户操作。

回复收藏 0 原文

不…忘初心 2024-07-14 13:06:12

Selenium IDE 是一个测试工具，我经常使用它来进行屏幕抓取。有一些事情它不能很好地处理（Javascript window.alert() 和一般的弹出窗口），但它通过实际触发单击事件并在文本框中键入内容来在页面上完成工作。因为 IDE 部分在 Firefox 中运行，所以您不必执行所有会话管理等工作，因为 Firefox 会处理这些事情。 IDE 记录并回放测试。

它还导出 C#、PHP、Java 等代码来构建在 Selenium 服务器上执行的编译测试/抓取器。我已经对多个 Selenium 脚本执行了此操作，这使得将抓取的数据存储在数据库中之类的事情变得更加容易。

脚本的编写和更改相当简单，由诸如（“clickAndWait”，“submitButton”）之类的内容组成。鉴于您所描述的内容，值得一看。

回复收藏 0 原文

东北女汉子 2024-07-14 13:06:12

亚当·戴维斯的建议很可靠。

我还建议您尝试“逆向工程”JavaScript 正在执行的操作，而不是尝试抓取页面，而是发出 JavaScript 发出的 HTTP 请求并自己解释结果（很可能采用 JSON 格式，很好而且很容易解析）。这个策略可能是微不足道的，也可能是一场彻头彻尾的噩梦，具体取决于 JavaScript 的复杂性。

当然，最好的可能性是说服网站维护人员实施对开发人员友好的 API。现在所有很酷的孩子都在这样做 8-) 当然，他们可能不希望以自动方式抓取数据...在这种情况下，您可以期待一场猫捉老鼠的游戏，使他们的页面越来越难以抓取:-(

回复收藏 0 原文

剩余の解释 2024-07-14 13:06:12

虽然有一定的学习曲线，但 Pamie (Python) 或 Watir (Ruby) 等工具可以让您融入 IE Web 浏览器并了解其中的元素。事实证明，这比 Mechanize 和其他 HTTP 级别的工具更容易，因为您不必模拟浏览器，您只需向浏览器询问 html 元素即可。这比对 Javascript/Ajax 调用进行逆向工程要容易得多。如果需要，您还可以将 beautiful soup 等工具与 Pami 结合使用。

回复收藏 0 原文