PySpider

PySpider

文章 349 浏览 53

xmlrpc.server 这个东西在pyspider作用是什么?

发现pyspider的调度器部分,用了一个xmlrpc.server这个东西。 这个东西是做什么用的呀。调度器不是基于队列进行调度的吗?为什么还要添加这个东西。 …

风筝在阴天搁浅。 2022-09-04 21:17:29 7 0

pyspider惰性求值代码问题

class Get(object): """ Lazy value calculate for object """ def __init__(self, getter): self.getter = getter def __get__(self, instance, own…

孤独患者 2022-09-04 21:17:19 12 0

pyspider任务卡在scheduler2fetcher队列,状态一直是task

pyspider现在任务全部卡在scheduler2fetche队列。用的是rabbitmq 爬虫状态 目前的情况爬虫一直卡在active中。 点进去状态是active …

就此别过 2022-09-04 20:59:37 9 0

pyspider示例失效

http://www.pyspider.cn/fenxia...上个月的这个例子现在已经失效,只发送信息,接收函数没有收到消息。有谁知道为什么吗?…

忱杏 2022-09-04 20:52:25 6 0

网页更新数据之后无法再次抓取

我抓取的网页今天更新了一条信息,然后爬虫运行了却没有抓取到. from pyspider.libs.base_handler import * from pyspider.database.mysql.mysqldb i…

夜血缘 2022-09-04 20:50:43 11 0

我发现一个很坑的BUG

问题在于 self.crawl(url, save=saveItem)中, 如果saveItem变态提前定义, 而你又有一批抓取动作, 例如: for i in range(10): self.crawl(url, sa…

享受孤独 2022-09-04 20:39:33 8 0

pyspider一下生成几千条链接爬取是否合适

如题,在on_start()的时候直接调用key_word_rank_page()生成几千条链接,并调用self.crawl。在调试的时候没问题,但是实际运行的时候代码跑一会就不…

一瞬间的火花 2022-09-04 20:39:31 13 0

pyspider怎么维护一个全局变量

我需要采集一个列表,最后把所有的列表的结果生成一个json字段。 但是我发现,pyspider没办法创建一个全局变量。 每个列表的url,callback过去的是时…

顾忌 2022-09-04 20:39:29 9 0

运行pyspider脚本报AttributeError

我是python新手,在用pyspider做爬虫时脚本报了AttributeError, 脚本代码如下: #!/usr/bin/python #coding:utf-8 from pyspider.libs.base_handler …

素手挽清风 2022-09-04 20:36:50 6 0

pyspider phantomjs内存泄漏和假死怎么解决呢?

爬取的时候,phantomjs会出现死掉的情况,这个怎么解决呢。。。…

不…忘初心 2022-09-04 20:36:49 7 0

请问pyspider的爬取的日志文件在哪里?

怎么查看爬取的日志呢? 除了点击Active Tasks?或者说可不可以自定义日志的输出位置? 看了下文档没看到有这个配置啊。。?…

刘备忘录 2022-09-04 20:36:48 9 0

pyspider链接redis时可以切换到其他的db么,默认时db0

配置文件里是这样写的:"message_queue": "redis://127.0.0.1:6379/db"。这样默认链接的是db0,我想切换到db9,应该怎么做呢,我在后面直接改成db9,…

墨离汐 2022-09-04 20:33:37 6 0

类似新浪明星这种既有瀑布流又有点击下一页,js脚本如何写?

http://ent.sina.com.cn/star/ 新浪明星这个网站,看了他的js的页面的参数构造有点奇怪。。。看起来像utc时间,测试了一下又不是。。只好选择直接js脚…

挽清梦 2022-09-04 20:23:57 6 0

crawl_config设置header后无效(无法被fetch获取),以及行号显示的问题?

在CentOS7下使用pip install安装PySpider后遇到如下两个问题 问题1:我在crawl_config中设置了header和itag。并从on_start方法开始重新访问,结果在…

你げ笑在眉眼 2022-09-04 20:18:07 25 0

pyspider怎样传递信息给下一个函数,但是不通过url

有的时候向通过pyspider直接传递信息给下一个函数,但是没有cral一个新的url的需求。 比如说,一个列表页面某部分信息需要传递给下一个函数,但是不…

獨角戲 2022-09-04 20:14:59 8 0
更多

推荐作者

不再见

文章 0 评论 0

真是无聊啊

文章 0 评论 0

樱娆

文章 0 评论 0

浅语花开

文章 0 评论 0

烛光

文章 0 评论 0

绻影浮沉

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文