pyspider的on_finished()函数调用问题
本人的需求是:在操作一批量级比较大的库时,在库中添加了一个字段----是否被读取,每条数据有唯一id标识每一条记录,所以我每次操作完100条数据,就…
pyspider抓头条json不会传递数据。
我用pyspider抓头条的json文件,每一页能获取下一页的链接和当前页的详情。但是存储速度很慢,因为每循环一次就执行一次插入mysql,请问怎么提高效率…
pyspider 调用PhantomJS 进行DOM 操作?
代码: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-28 01:03:55 from pyspider.libs.base_handler import * import re …
pyspider 如何只重爬FAILED的任务?
已讀 https://segmentfault.com/q/10...但我的result.db中并没有一列为status, 应如何处理? 因为数据量太多, 如可能的话, 不想重爬处理, 只想处理FAI…
pyspider 404 没有触发 catch_status_code_error 的函数
代码如下: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-20 10:25:07 # Project: testerror from pyspider.libs.base_ha…
pyspider 抛错list index out of range
track.fetch 95.33ms { "content": "\n<!DOCTYPE html>\r\n<html lang=\"zh-CN\">\r\n<head>\r\n <meta http-equiv=\"Content-Type\" …
pyspider 如何添加所有项目的全局代理
现在我们pyspider的所有项目都需要代理,然后如果每个项目都通过添加crawl_config的方法的话很麻烦,想要添加一个所有项目的proxy.在libs/base_handler…
pyspider 分布式部署下,fetcher 得到的数据是否优先给同节点运行的 processer 处理?
根据文档里的 data flow,fetcher 生产的 response 发给(feeds to) processor,那么在分布式部署下,response 数据是否要整个传回 scheduler 由它…
pysipder设定了age和auto_recrawl之后的任务状态是否(会由于被重新调度而)一直为active
代码如下,我测试中是设定60s执行一次,设定了age和auto_recrawl,看上去任务是在执行,但我想询问下任务是不是会由于设定了定时任务,所以一直都是a…
pyspider是否可以在任务途中改变代码?
我在代码中加了 crawl_config = { "itag" : "v1" "fetcher": { "proxy": 'xxxxxxxxxxxxx' , } } 因为用免费proxy的关系, 所以时间一久就会失效, 需转…
self.crawl(url)里面的url能不能是空值?或者无意义值
项目需要,self.crawl(url)需要callback去另一个方法,但是要求不获取url的html,所以现在url用127.0.0.1代替,请问有什么方法,可以让callback成功,…
rate burst能否控制on_message接收的流量
其他project发送来的message,再通过on_message 传递给本项目的其他方法,如: def on_message(self, project, msg): ... ... self.crawl(url, callb…