第 9 页 - PySpider - 文江博客

投稿关注

PySpider

文章 349 浏览 58

pyspider的爬取任务队列有没有数量限制

数据库中存了大概一百万个url，我需要从数据库中取出这些url，并将它们加入到爬取的任务队列中去。借用另一位同学的问题描述（只是我的情况更加极端…

寒冷纷飞旳雪 2022-09-05 15:00:54 15 0

请问如何实现返回单个url的所有结果？

需求：爬取单页内容，并隔一段时间重爬。现在问题是result里面url相同时，只会返回一行数据，每次爬取都是对这行数据的更新。有没有办法返回单个url的…

随心而道 2022-09-05 15:00:51 15 0

pyspider 点击run之后没有反应

pyspider 点击run之后没有反应SUCCESS xxx > data:,_on_get_info 1 hour ago没有调用on_start fetcher队列的状态也正常：scheduler 0 fetcher 1 proc…

凯凯我们等你回来 2022-09-05 10:48:25 14 0

pyspider @every时间设置无效

在pyspider中用@every设置时间间隔，对于有些project无效，启动一次之后一直没有重启： @every(seconds=30) def on_start(self): self.crawl('http:/…

⒈起吃苦の倖褔 2022-09-05 10:20:00 19 0

使用self.crawl post提交application/json数据结果出错。如何转为json对象而不是字符串？

data：{"content":22,"path":333,"cat":"test"}…

眼眸里的那抹悲凉 2022-09-05 10:08:34 16 0

pyspider 单步调试的速度比运行快很多

pyspider 单步调试的速度比运行快很多访问很多网站，在编辑界面单布调试的fetch速度都在3s内，但实际运行的时候，常常会超过20s.不知道是什么原因，有…

丑疤怪 2022-09-05 10:08:33 17 0

关于服务器重定向链接怎么去执行js_script的问题？

第一个带参数的请求链接 http://new.hnair.com/hainanair/ibe/deeplink/ancillary.do?DD1=2017-08-31&DD2=&TA=1&TC=0&TI=&ORI=CKG&DES=HRB&SC=Y&ICS=…

睫毛溺水了 2022-09-05 09:31:50 18 0

pyspider超时 HTTP 599: Operation timed out after .....

Retry的几次之后，系统感觉就不在动了，好像任务停止了一样源码如下： class Handler(BaseHandler): crawl_config = { } def __init__(self): self.…

庆幸我还是我 2022-09-05 09:18:34 15 0

pyspider 如果从网页的输入框中往 pyspider传值？

如果从网页的输入框中往 pyspider传值？如，我有一个机票搜索网页类似携程去哪儿，在网页上填写出发城市、抵达城市和出发日期，点击搜索按钮，怎么去…

魂ガ小子 2022-09-05 09:18:32 16 0

pyspider中同时开多个project, 爬取速度为何没有明显提高?

project是这样的,从mongodb数据库里获取要抓取的链接,在每个project的代码里,从数据库提取url时,设置了相应措施,保证各project不会爬取重复的url,每个…

凉宸 2022-09-05 09:07:27 14 0

database sqlite3.DatabaseError: database disk image is malformed

Process Process-5: Traceback (most recent call last): File "/Users/zhangchuan/anaconda/lib/python3.6/multiprocessing/process.py", line 249,…

不再见 2022-09-05 08:54:30 18 0

在没有webui的情况下，如何修改参数rate/burst ?

我的pyspider部署在远程服务器上,不打算使用webui来调试爬虫目前,我知道启动爬虫可以通过命令行pyspider --projectdb local+projectdb://filepathxxx.…

最近可好 2022-09-05 08:54:28 14 0

pyspider启动成功，但是5000端口访问没有响应

pyspider启动成功，但是5000端口访问没有响应，相应信息如下 …

天荒地未老 2022-09-05 07:49:41 13 0

pyspider抓取知乎出现500 Server Error错误，其它网站正常

刚上手玩pyspider，起了localhost:5000后用知乎页面(https://www.zhihu.com/questio...做测试，报错：但是用其它网址测试都是正常的，比如用谷歌首…

孤独岁月 2022-09-05 06:33:52 16 0

pyspider设置@every(minutes=15)的问题

[问题] 使用pyspider爬取某网站，想每15分钟重新爬取一次，且需要在xx:00,xx:15,xx:30,xx.45这四个时刻之前抓取. 所以我设置on_start()的@every(minu…

独自唱情﹋歌 2022-09-05 04:33:12 28 0

共 24 页
上一页
7
8
9
10
11
下一页

友情链接

文江博客