scrapy的获取动态网页内容
@明天以后 你好,想跟你请教个问题:我在爬取一个动态网站http://www.lnzc.gov.cn/SitePages/AfficheListAll1.aspx 。能用scrapy获得当前页需要的连接,也能根据dopostback函数爬取下一页的内容,但是在两部分合到一起的时候有点迷惑。我的目的是爬取每一页的超链接。看了你的博客:scrapy框架提高,还是不太懂,主要是对scrapy不熟悉,please guide me
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
引用来自“明天以后”的评论
使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。
如果非要使用的话,推荐你 requests模块。
https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py 之前写的一个示例吧。
还有就是,你需要好好阅读一下官方文档。
http://scrapy.readthedocs.io/en/latest/
非常感谢你的回复。
这个网站ajax请求加密了的。scrapy 本身有request方法。没必要用第三方http库
requests库的确很强大
非常感谢你的回复
使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。
如果非要使用的话,推荐你 requests模块。
https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py 之前写的一个示例吧。
还有就是,你需要好好阅读一下官方文档。
http://scrapy.readthedocs.io/en/latest/