xmlrpc.server 这个东西在pyspider作用是什么?
发现pyspider的调度器部分,用了一个xmlrpc.server这个东西。 这个东西是做什么用的呀。调度器不是基于队列进行调度的吗?为什么还要添加这个东西。 …
pyspider惰性求值代码问题
class Get(object): """ Lazy value calculate for object """ def __init__(self, getter): self.getter = getter def __get__(self, instance, own…
pyspider任务卡在scheduler2fetcher队列,状态一直是task
pyspider现在任务全部卡在scheduler2fetche队列。用的是rabbitmq 爬虫状态 目前的情况爬虫一直卡在active中。 点进去状态是active …
网页更新数据之后无法再次抓取
我抓取的网页今天更新了一条信息,然后爬虫运行了却没有抓取到. from pyspider.libs.base_handler import * from pyspider.database.mysql.mysqldb i…
我发现一个很坑的BUG
问题在于 self.crawl(url, save=saveItem)中, 如果saveItem变态提前定义, 而你又有一批抓取动作, 例如: for i in range(10): self.crawl(url, sa…
pyspider一下生成几千条链接爬取是否合适
如题,在on_start()的时候直接调用key_word_rank_page()生成几千条链接,并调用self.crawl。在调试的时候没问题,但是实际运行的时候代码跑一会就不…
pyspider怎么维护一个全局变量
我需要采集一个列表,最后把所有的列表的结果生成一个json字段。 但是我发现,pyspider没办法创建一个全局变量。 每个列表的url,callback过去的是时…
运行pyspider脚本报AttributeError
我是python新手,在用pyspider做爬虫时脚本报了AttributeError, 脚本代码如下: #!/usr/bin/python #coding:utf-8 from pyspider.libs.base_handler …
pyspider链接redis时可以切换到其他的db么,默认时db0
配置文件里是这样写的:"message_queue": "redis://127.0.0.1:6379/db"。这样默认链接的是db0,我想切换到db9,应该怎么做呢,我在后面直接改成db9,…
类似新浪明星这种既有瀑布流又有点击下一页,js脚本如何写?
http://ent.sina.com.cn/star/ 新浪明星这个网站,看了他的js的页面的参数构造有点奇怪。。。看起来像utc时间,测试了一下又不是。。只好选择直接js脚…
crawl_config设置header后无效(无法被fetch获取),以及行号显示的问题?
在CentOS7下使用pip install安装PySpider后遇到如下两个问题 问题1:我在crawl_config中设置了header和itag。并从on_start方法开始重新访问,结果在…
pyspider怎样传递信息给下一个函数,但是不通过url
有的时候向通过pyspider直接传递信息给下一个函数,但是没有cral一个新的url的需求。 比如说,一个列表页面某部分信息需要传递给下一个函数,但是不…