PySpider

PySpider

文章 349 浏览 54

pyspider的on_finished()函数调用问题

本人的需求是:在操作一批量级比较大的库时,在库中添加了一个字段----是否被读取,每条数据有唯一id标识每一条记录,所以我每次操作完100条数据,就…

软的没边 2022-09-06 03:58:19 12 0

pyspider更新tag后执行的脚本依然为旧脚本

更新TAGS之后跑的脚本依然为老脚本,所传参数proxy依然为之前proxy…

横笛休吹塞上声 2022-09-06 03:58:17 7 0

pyspider抓头条json不会传递数据。

我用pyspider抓头条的json文件,每一页能获取下一页的链接和当前页的详情。但是存储速度很慢,因为每循环一次就执行一次插入mysql,请问怎么提高效率…

仲春光 2022-09-06 03:58:15 10 0

pyspider 调用PhantomJS 进行DOM 操作?

代码: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-28 01:03:55 from pyspider.libs.base_handler import * import re …

油饼 2022-09-06 03:44:06 18 0

pyspider 如何只重爬FAILED的任务?

已讀 https://segmentfault.com/q/10...但我的result.db中并没有一列为status, 应如何处理? 因为数据量太多, 如可能的话, 不想重爬处理, 只想处理FAI…

国产ˉ祖宗 2022-09-06 03:14:19 14 0

pyspider 404 没有触发 catch_status_code_error 的函数

代码如下: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-20 10:25:07 # Project: testerror from pyspider.libs.base_ha…

树深时见影 2022-09-06 03:14:15 12 0

pyspider 抛错list index out of range

track.fetch 95.33ms { "content": "\n&lt!DOCTYPE html&gt\r\n&lthtml lang=\"zh-CN\"&gt\r\n&lthead&gt\r\n &ltmeta http-equiv=\"Content-Type\" …

妄司 2022-09-06 02:42:37 9 0

pyspider 如何添加所有项目的全局代理

现在我们pyspider的所有项目都需要代理,然后如果每个项目都通过添加crawl_config的方法的话很麻烦,想要添加一个所有项目的proxy.在libs/base_handler…

一向肩并 2022-09-06 02:42:33 11 0

pyspider 分布式部署下,fetcher 得到的数据是否优先给同节点运行的 processer 处理?

根据文档里的 data flow,fetcher 生产的 response 发给(feeds to) processor,那么在分布式部署下,response 数据是否要整个传回 scheduler 由它…

埋葬我深情 2022-09-06 01:34:30 16 0

pysipder设定了age和auto_recrawl之后的任务状态是否(会由于被重新调度而)一直为active

代码如下,我测试中是设定60s执行一次,设定了age和auto_recrawl,看上去任务是在执行,但我想询问下任务是不是会由于设定了定时任务,所以一直都是a…

乄_柒ぐ汐 2022-09-06 01:34:25 31 0

pyspider是否可以在任务途中改变代码?

我在代码中加了 crawl_config = { "itag" : "v1" "fetcher": { "proxy": 'xxxxxxxxxxxxx' , } } 因为用免费proxy的关系, 所以时间一久就会失效, 需转…

冷︶言冷语的世界 2022-09-06 00:55:20 16 0

self.crawl(url)里面的url能不能是空值?或者无意义值

项目需要,self.crawl(url)需要callback去另一个方法,但是要求不获取url的html,所以现在url用127.0.0.1代替,请问有什么方法,可以让callback成功,…

空名 2022-09-05 23:57:52 13 0

rate burst能否控制on_message接收的流量

其他project发送来的message,再通过on_message 传递给本项目的其他方法,如: def on_message(self, project, msg): ... ... self.crawl(url, callb…

优雅的叶子 2022-09-05 23:44:41 11 0

pyspider 如何跨实例部署

pyspider 的开发部署环境合一,但是为了区分开发测试环境,往往开发测试走一套pyspider实例,而上线走另外一套实例。测试过了以后,现在的部署只能把…

难理解 2022-09-05 23:41:25 13 0

给pyspider的任务加了一个分组

(发文章不让发,发到这里吧,有需要的拿去。)效果如图,视图层面通过js实现的简单分组。任务太多,方便管理。(代码比较渣,凑合看看吧。) 以下是…

一笑百媚生 2022-09-05 23:31:52 12 0
更多

推荐作者

留蓝

文章 0 评论 0

18790681156

文章 0 评论 0

zach7772

文章 0 评论 0

Wini

文章 0 评论 0

ayeshaaroy

文章 0 评论 0

初雪

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文