文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
5.4 本章小结
本章介绍了两种抓取动态网页数据的方法。第一种方法是借助Firebug Lite对动态网页进行逆向工程,第二种方法是使用浏览器渲染引擎为我们触发JavaScript事件。我们首先使用WebKit创建自定义浏览器,然后使用更高级的Selenium框架重新实现该爬虫。
浏览器渲染引擎能够为我们节省了解网站后端工作原理的时间,但是该方法也有其劣势。渲染网页增加了开销,使其比单纯下载HTML更慢。另外,使用浏览器渲染引擎的方法通常需要轮询网页来检查是否已经得到事件生成的HTML,这种方式非常脆弱,在网络较慢时会经常会失败。我一般将浏览器渲染引擎作为短期解决方案,此时长期的性能和可靠性并不算重要;而作为长期解决方案,我会尽最大努力对网站进行逆向工程。
在下一章中,我们将介绍如何与表单进行交互,以及使用 cookie 登录网站并编辑内容。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论