返回介绍

5.4 本章小结

发布于 2024-02-05 23:37:18 字数 388 浏览 0 评论 0 收藏 0

本章介绍了两种抓取动态网页数据的方法。第一种方法是借助Firebug Lite对动态网页进行逆向工程,第二种方法是使用浏览器渲染引擎为我们触发JavaScript事件。我们首先使用WebKit创建自定义浏览器,然后使用更高级的Selenium框架重新实现该爬虫。

浏览器渲染引擎能够为我们节省了解网站后端工作原理的时间,但是该方法也有其劣势。渲染网页增加了开销,使其比单纯下载HTML更慢。另外,使用浏览器渲染引擎的方法通常需要轮询网页来检查是否已经得到事件生成的HTML,这种方式非常脆弱,在网络较慢时会经常会失败。我一般将浏览器渲染引擎作为短期解决方案,此时长期的性能和可靠性并不算重要;而作为长期解决方案,我会尽最大努力对网站进行逆向工程。

在下一章中,我们将介绍如何与表单进行交互,以及使用 cookie 登录网站并编辑内容。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文