scrapy的获取动态网页内容

发布于 2021-12-01 15:34:08 字数 419 浏览 963 评论 5

@明天以后 你好,想跟你请教个问题:我在爬取一个动态网站http://www.lnzc.gov.cn/SitePages/AfficheListAll1.aspx  。能用scrapy获得当前页需要的连接,也能根据dopostback函数爬取下一页的内容,但是在两部分合到一起的时候有点迷惑。我的目的是爬取每一页的超链接。看了你的博客:scrapy框架提高,还是不太懂,主要是对scrapy不熟悉,please guide me

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

猫性小仙女 2021-12-03 16:44:49

引用来自“明天以后”的评论

使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。

如果非要使用的话,推荐你 requests模块。

https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py  之前写的一个示例吧。

还有就是,你需要好好阅读一下官方文档。

http://scrapy.readthedocs.io/en/latest/

2021-12-03 14:29:59

非常感谢你的回复。

够钟 2021-12-02 15:14:42

这个网站ajax请求加密了的。scrapy 本身有request方法。没必要用第三方http库

requests库的确很强大

青萝楚歌 2021-12-02 05:45:53

非常感谢你的回复

千纸鹤带着心事 2021-12-02 00:11:39

使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。

如果非要使用的话,推荐你 requests模块。

https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py  之前写的一个示例吧。

还有就是,你需要好好阅读一下官方文档。

http://scrapy.readthedocs.io/en/latest/

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文