PySpider

PySpider

文章 349 浏览 55

请问如何实现返回单个url的所有结果?

需求:爬取单页内容,并隔一段时间重爬。现在问题是result里面url相同时,只会返回一行数据,每次爬取都是对这行数据的更新。有没有办法返回单个url的…

随心而道 2022-09-05 15:00:51 12 0

pyspider 点击run之后没有反应

pyspider 点击run之后没有反应SUCCESS xxx > data:,_on_get_info 1 hour ago没有调用on_start fetcher队列的状态也正常:scheduler 0 fetcher 1 proc…

凯凯我们等你回来 2022-09-05 10:48:25 11 0

pyspider @every时间设置无效

在pyspider中用@every设置时间间隔,对于有些project无效,启动一次之后一直没有重启: @every(seconds=30) def on_start(self): self.crawl('http:/…

⒈起吃苦の倖褔 2022-09-05 10:20:00 16 0

pyspider 单步调试的速度比运行快很多

pyspider 单步调试的速度比运行快很多访问很多网站,在编辑界面单布调试的fetch速度都在3s内,但实际运行的时候,常常会超过20s.不知道是什么原因,有…

丑疤怪 2022-09-05 10:08:33 14 0

关于服务器重定向链接怎么去执行js_script的问题?

第一个带参数的请求链接 http://new.hnair.com/hainanair/ibe/deeplink/ancillary.do?DD1=2017-08-31&DD2=&TA=1&TC=0&TI=&ORI=CKG&DES=HRB&SC=Y&ICS=…

睫毛溺水了 2022-09-05 09:31:50 15 0

pyspider超时 HTTP 599: Operation timed out after .....

Retry的几次之后,系统感觉就不在动了,好像任务停止了一样 源码如下: class Handler(BaseHandler): crawl_config = { } def __init__(self): self.…

庆幸我还是我 2022-09-05 09:18:34 12 0

pyspider 如果从网页的输入框中往 pyspider传值?

如果从网页的输入框中往 pyspider传值?如,我有一个机票搜索网页类似携程去哪儿,在网页上填写出发城市、抵达城市和出发日期,点击搜索按钮,怎么去…

魂ガ小子 2022-09-05 09:18:32 13 0

pyspider中同时开多个project, 爬取速度为何没有明显提高?

project是这样的,从mongodb数据库里获取要抓取的链接,在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个…

凉宸 2022-09-05 09:07:27 11 0

database sqlite3.DatabaseError: database disk image is malformed

Process Process-5: Traceback (most recent call last): File "/Users/zhangchuan/anaconda/lib/python3.6/multiprocessing/process.py", line 249,…

不再见 2022-09-05 08:54:30 15 0

在没有webui的情况下,如何修改参数rate/burst ?

我的pyspider部署在远程服务器上,不打算使用webui来调试爬虫目前,我知道启动爬虫可以通过命令行pyspider --projectdb local+projectdb://filepathxxx.…

最近可好 2022-09-05 08:54:28 11 0

pyspider启动成功,但是5000端口访问没有响应

pyspider启动成功,但是5000端口访问没有响应,相应信息如下 …

天荒地未老 2022-09-05 07:49:41 11 0

pyspider抓取知乎出现500 Server Error错误,其它网站正常

刚上手玩pyspider,起了localhost:5000后用知乎页面(https://www.zhihu.com/questio...做测试,报错: 但是用其它网址测试都是正常的,比如用谷歌首…

孤独岁月 2022-09-05 06:33:52 13 0

pyspider设置@every(minutes=15)的问题

[问题] 使用pyspider爬取某网站,想每15分钟重新爬取一次,且需要在xx:00,xx:15,xx:30,xx.45这四个时刻之前抓取. 所以我设置on_start()的@every(minu…

独自唱情﹋歌 2022-09-05 04:33:12 25 0

分布式部署, 节点失效会不会到时 task 丢失?

主机上部署了 mysql + rabbitmq + pyspider全部节点, 其他机器部署了部分 fetcher 和 processer,问题是如这些节点失效,正在处理的 task 会不会丢失?…

香橙ぽ 2022-09-05 04:09:16 13 0
更多

推荐作者

慕巷

文章 0 评论 0

浅生活

文章 0 评论 0

bal

文章 0 评论 0

lqwuliang

文章 0 评论 0

后来的我们

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文