升级后pyspider不启动,一直停留在web server running on port 25555
升级到最新版(0.3.8)后,pyspider 无法启动,一直停留在web server running on port 25555 正常可以启动,但是,用pyspider -c config.json 带参数…
【bug】当出现特殊换字符时 lxml报错: input conversion failed due to
错误提示:encoding error : input conversion failed due to采集一个页面,页面中有无法转码的特殊字符,一般情况下用 .decode('gbk','ignore') 或…
pyspider降低爬取频率的问题,如何限制on_start方法中for循环的执行频率?
看文档中设置@every是用来限制多久执行一次on_start方法,我现在是暴力遍历url去爬,我需要限制for循环的执行频率 def on_start(self): for id in ra…
pyspider 中 failed 的任务怎么retry
一开始的任务没有设置retry_delay,过了一夜看到大约有几十个task failed,如果我想重试这些failed的task,该怎么操作?…
pyspider爬取分页数据,setInterval模拟下一页点击事件无效
爬的这个网页分页切换url不变,我就模拟了下一页按钮的点击事件,我在控制台里试了这句跳到下一页的代码$('.pager_next').click()是可以正常加载下一…
PySpider安装完成后运行提示:result_worker starting... 之后再无更多内容
PySpider安装完成后运行提示:result_worker starting...之后再无更多内容 64位win10,64位Python …
请问如何解决HTTP 599: Recv failure: Connection reset by peer错误
请问如何解决HTTP 599: Recv failure: Connection reset by peer错误。页面访问正常。 track.fetch 13824.35ms { "content": "", "encoding": null, …
pyspider scheduler 停止调度,重启时间长.
当前的pyspider为pyspider (0.3.9) python 2.7.5 大概有200个项目,其中部分stop,运行状态大概有100多个。 projectdb和resultdb 使用的是 mongodb c…
并发提升不上去,如何排查
用的 MongoDB + RabbitMQ 比之前用的 MySQL + Redis 的方案慢很多,想了解下有何排查思路? 截图是 webUI 上展示的 avg time .. 两个数值分别代表什…
pyspider是否可以按一定的间隔同时发起多个请求?
请问pyspider是否可以按一定的间隔同时发起多个请求?比如先同时请求url1和url2,然后等待10秒,再同时请求url3和url4这样。现在的设置貌似是只能按一…
schedule内容不更新的问题。
用的github上最新的0.3.9版本,发现更改了project的代码后,schedule里面的内容居然没有更新,导致本来希望半小时抓取一次,结果爬虫是10秒钟爬取一…
请问如果调试页面执行情况以解决phantomjs不执行js问题?
我之前问过一个问题:请问如何解决windows环境下phantomjs不支持flash的问题?我现在换到ubuntu环境下,phantomjs依然不执行js代码,抓不到数据。我…