PySpider

PySpider

文章 349 浏览 55

继承自BaseHander的类,而非直接继承BaseHandler,引用失败

运行代码如下: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-04-19 12:07:53 # Project: http from pyspider.libs.base_hand…

心房敞 2022-09-04 20:10:27 19 0

pyspider中crawl方法里无法传入十分长的url

目标站点的数据是ajax动态加载的,通过开发者工具,发现获取数据的过程实际是请求了类似下面的这条url: https://etherchain.org/blocks/data?draw=1…

装纯掩盖桑 2022-09-04 20:06:49 12 0

pyspider 运行 和 age 参数问题?

pyspider 在界面上编写脚本,然后点击 run 运行,那可不可以把脚本复制到xxx.py 文件里,然后用 python xxx.py 的形式运行? 在写脚本时,设置 age =…

二手情话 2022-09-04 19:35:50 17 0

用 supervisor 管理后台进程 为什么 stop 掉了之前开启的应用,但是发现其实还是在运行,因为通过浏览器还是能访问?

用 supervisor 管理后台进程(就是一个spider) 为什么 stop 掉了之前开启的应用,但是发现其实还是在运行,因为通过浏览器还是能访问…

半步萧音过轻尘 2022-09-04 19:17:50 28 0

pysipder下载文件超时

我使用pyspider下载pdf文件,具体爬虫代码如下: @config(priority=2) def detail_page(self, response): author = [] for each in response.doc('h2…

三生路 2022-09-04 19:13:10 22 0

为什么感觉 pyspider 爬取的速度好慢

为什么感觉 pyspider 爬取的速度好慢(比自己直接用 requests 和 bs慢多了),是不是因为有些网页会 retry,不过成功率倒是比自己爬取的高多了。是不…

何必那么矫情 2022-09-04 18:57:30 12 0

pyspider 爬取的数据无法存入 MongoDB

代码在没有override on_result函数时,可以将爬取的数据存入pyspider自带的resultdb中。但是override以后却无法将结果存入Mongodb中。congfig.json文…

桜花祭 2022-09-04 18:52:56 11 0

pyspider的age参数设定

关于age的两点问题: @every(minutes=24 * 60) def on_start(self): self.crawl('http://www.example.org/', callback=self.index_page) @config(age…

如此安好 2022-09-04 18:52:17 17 0

pyspider在抓取一周前on_start中设置url

更新了on_start中的url地址,一周后程序仍在抓取旧的url,如果彻底清除旧的url? 需求中这个url列表可能会经常变化。…

旧城烟雨 2022-09-04 18:52:11 16 0

win7 64bit用python2.7.13运行pyspider过程中出现问题

如题,在pyspider中运行出错,但是调试完全正常 如图,调试完全正常, 图2,运行虽然显示有时间变化,但是数据库完全没有数据,调试过程中数据库是正…

云朵有点甜 2022-09-04 18:52:09 20 0

pyspider如何降低抓取频率?

抓的太快很容易被封IP,所以我希望每10秒只抓一个页面,翻了下文档有两种设置貌似贴近需求 rate/burst = 0.1/3 或者 i = 0 for each in response.doc…

埖埖迣鎅 2022-09-04 18:52:06 14 0

pyspider爬pdf爬了一小段时间后就不动了

下载了一小部分之后就不动了,stop之后重新跑也没有任何反应,有人知道是怎么回事吗?谢谢大家。 …

清晨说晚安 2022-09-04 18:52:05 16 0

pyspider 如何获取某个列表中的第n个元素

response.doc('.link_nei>ul>li>a').items()上面的语句是用来获取所有符合条件的 ,我想获得倒数第二个 应该怎么获得? 教程上都是通过正则表达式去筛…

甜宝宝 2022-09-04 18:47:15 16 0

究竟怎么给phantomjs设置代理?

今天在抓一个站点的时候用到phantomjs组件,抓取都很成功,但是有如下提示: [W 170405 02:04:09 base_handler:334] phantomjs does not support spe…

2022-09-04 18:47:01 17 0

pyspider爬取了接近1G的数据,无法导出csv?

已经增加虚拟机内存至2g,依然无法导出。…

奈何桥上唱咆哮 2022-09-04 18:43:11 18 0
更多

推荐作者

我早已燃尽

文章 0 评论 0

就像说晚安

文章 0 评论 0

donghfcn

文章 0 评论 0

凡尘雨

文章 0 评论 0

鲜血染红嫁衣

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文