PySpider

PySpider

文章 349 浏览 58

pyspider的爬取任务队列有没有数量限制

数据库中存了大概一百万个url,我需要从数据库中取出这些url,并将它们加入到爬取的任务队列中去。借用另一位同学的问题描述(只是我的情况更加极端…

寒冷纷飞旳雪 2022-09-05 15:00:54 15 0

请问如何实现返回单个url的所有结果?

需求:爬取单页内容,并隔一段时间重爬。现在问题是result里面url相同时,只会返回一行数据,每次爬取都是对这行数据的更新。有没有办法返回单个url的…

随心而道 2022-09-05 15:00:51 15 0

pyspider 点击run之后没有反应

pyspider 点击run之后没有反应SUCCESS xxx > data:,_on_get_info 1 hour ago没有调用on_start fetcher队列的状态也正常:scheduler 0 fetcher 1 proc…

凯凯我们等你回来 2022-09-05 10:48:25 14 0

pyspider @every时间设置无效

在pyspider中用@every设置时间间隔,对于有些project无效,启动一次之后一直没有重启: @every(seconds=30) def on_start(self): self.crawl('http:/…

⒈起吃苦の倖褔 2022-09-05 10:20:00 19 0

pyspider 单步调试的速度比运行快很多

pyspider 单步调试的速度比运行快很多访问很多网站,在编辑界面单布调试的fetch速度都在3s内,但实际运行的时候,常常会超过20s.不知道是什么原因,有…

丑疤怪 2022-09-05 10:08:33 17 0

关于服务器重定向链接怎么去执行js_script的问题?

第一个带参数的请求链接 http://new.hnair.com/hainanair/ibe/deeplink/ancillary.do?DD1=2017-08-31&DD2=&TA=1&TC=0&TI=&ORI=CKG&DES=HRB&SC=Y&ICS=…

睫毛溺水了 2022-09-05 09:31:50 18 0

pyspider超时 HTTP 599: Operation timed out after .....

Retry的几次之后,系统感觉就不在动了,好像任务停止了一样 源码如下: class Handler(BaseHandler): crawl_config = { } def __init__(self): self.…

庆幸我还是我 2022-09-05 09:18:34 15 0

pyspider 如果从网页的输入框中往 pyspider传值?

如果从网页的输入框中往 pyspider传值?如,我有一个机票搜索网页类似携程去哪儿,在网页上填写出发城市、抵达城市和出发日期,点击搜索按钮,怎么去…

魂ガ小子 2022-09-05 09:18:32 16 0

pyspider中同时开多个project, 爬取速度为何没有明显提高?

project是这样的,从mongodb数据库里获取要抓取的链接,在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个…

凉宸 2022-09-05 09:07:27 14 0

database sqlite3.DatabaseError: database disk image is malformed

Process Process-5: Traceback (most recent call last): File "/Users/zhangchuan/anaconda/lib/python3.6/multiprocessing/process.py", line 249,…

不再见 2022-09-05 08:54:30 18 0

在没有webui的情况下,如何修改参数rate/burst ?

我的pyspider部署在远程服务器上,不打算使用webui来调试爬虫目前,我知道启动爬虫可以通过命令行pyspider --projectdb local+projectdb://filepathxxx.…

最近可好 2022-09-05 08:54:28 14 0

pyspider启动成功,但是5000端口访问没有响应

pyspider启动成功,但是5000端口访问没有响应,相应信息如下 …

天荒地未老 2022-09-05 07:49:41 13 0

pyspider抓取知乎出现500 Server Error错误,其它网站正常

刚上手玩pyspider,起了localhost:5000后用知乎页面(https://www.zhihu.com/questio...做测试,报错: 但是用其它网址测试都是正常的,比如用谷歌首…

孤独岁月 2022-09-05 06:33:52 16 0

pyspider设置@every(minutes=15)的问题

[问题] 使用pyspider爬取某网站,想每15分钟重新爬取一次,且需要在xx:00,xx:15,xx:30,xx.45这四个时刻之前抓取. 所以我设置on_start()的@every(minu…

独自唱情﹋歌 2022-09-05 04:33:12 28 0
更多

推荐作者

李珊平

文章 0 评论 0

Quxin

文章 0 评论 0

范无咎

文章 0 评论 0

github_ZOJ2N8YxBm

文章 0 评论 0

若言

文章 0 评论 0

南…巷孤猫

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文