pyspider 点击run之后没有反应
pyspider 点击run之后没有反应SUCCESS xxx > data:,_on_get_info 1 hour ago没有调用on_start fetcher队列的状态也正常:scheduler 0 fetcher 1 pr…
pyspider @every时间设置无效
在pyspider中用@every设置时间间隔,对于有些project无效,启动一次之后一直没有重启: @every(seconds=30) def on_start(self): self.crawl('http:/…
使用self.crawl post提交application/json数据结果出错。如何转为json对象而不是字符串?
data:{"content":22,"path":333,"cat":"test"}…
pyspider 单步调试的速度比运行快很多
pyspider 单步调试的速度比运行快很多访问很多网站,在编辑界面单布调试的fetch速度都在3s内,但实际运行的时候,常常会超过20s.不知道是什么原因,有…
关于服务器重定向链接怎么去执行js_script的问题?
第一个带参数的请求链接 http://new.hnair.com/hainanair/ibe/deeplink/ancillary.do?DD1=2017-08-31&DD2=&TA=1&TC=0&TI=&ORI=CKG&am…
pyspider超时 HTTP 599: Operation timed out after .....
Retry的几次之后,系统感觉就不在动了,好像任务停止了一样 源码如下: class Handler(BaseHandler): crawl_config = { } def __init__(self): self.…
pyspider 如果从网页的输入框中往 pyspider传值?
如果从网页的输入框中往 pyspider传值?如,我有一个机票搜索网页类似携程去哪儿,在网页上填写出发城市、抵达城市和出发日期,点击搜索按钮,怎么去…
pyspider中同时开多个project, 爬取速度为何没有明显提高?
project是这样的,从mongodb数据库里获取要抓取的链接,在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个…
database sqlite3.DatabaseError: database disk image is malformed
Process Process-5: Traceback (most recent call last): File "/Users/zhangchuan/anaconda/lib/python3.6/multiprocessing/process.py", line 249,…
在没有webui的情况下,如何修改参数rate/burst ?
我的pyspider部署在远程服务器上,不打算使用webui来调试爬虫目前,我知道启动爬虫可以通过命令行pyspider --projectdb local+projectdb://filepathxxx.…
pyspider抓取知乎出现500 Server Error错误,其它网站正常
刚上手玩pyspider,起了localhost:5000后用知乎页面(https://www.zhihu.com/questio...做测试,报错: 但是用其它网址测试都是正常的,比如用谷歌首…
pyspider设置@every(minutes=15)的问题
[问题] 使用pyspider爬取某网站,想每15分钟重新爬取一次,且需要在xx:00,xx:15,xx:30,xx.45这四个时刻之前抓取. 所以我设置on_start()的@every(minu…
分布式部署, 节点失效会不会到时 task 丢失?
主机上部署了 mysql + rabbitmq + pyspider全部节点, 其他机器部署了部分 fetcher 和 processer,问题是如这些节点失效,正在处理的 task 会不会丢失?…