PySpider

PySpider

文章 349 浏览 55

pyspider单步调试通过,但是到Dashboard改了状态run不成功。

pyspider单步调试通过,爬取的结果能写入数据库。但是到Dashboard改了状态run不成功。 就直接finished。里面提示: 但是为什么单步调试又是没问题的呢…

不寐倦长更 2022-09-04 10:22:40 19 0

pyspider 访问网址出现HTTP 599 resolving timed out,改成ip数字地址就可以

[E 170111 22:17:24 base_handler:195] HTTP 599: Resolving timed out after 20000 milliseconds Traceback (most recent call last): File "c:\pyt…

笑看君怀她人 2022-09-04 10:18:34 13 0

pyspider的抓取部分能某个Project单独重写么?

我现在有个别 Project 需要在抓取时再指定 Cookie 或代理,所以我想修改抓取的部分,但是我不太清楚能不能只是单独重写某些 Project 的抓取部分呢?…

优雅的叶子 2022-09-04 10:18:29 9 0

debug时能正常运行,然而在dashboard界面时任务都返回400 bad request

Debug是能正常运行,而在dashboard上run都是 请问这是什么问题 PS:系统是ubuntu 16.04LTS python是3.5.2 pyspider是0.3.8 …

尾戒 2022-09-04 10:08:40 8 0

使用from projects import some_project提示:KeyError: 'projects'

使用from projects import some_project 提示:File "", line 969, in _find_and_loadFile "", line 958, in _find_and_load_unlockedFile "", line …

傾城如夢未必闌珊 2022-09-04 10:08:34 10 0

Scheduler 控制 status_queue 的疑问

我在看pyspider 的源码的时候,看到processor 处理完成task 的时候,会将处理的描述一个 status_pack放入status_queue中。但是没弄清楚scheduler 在rp…

暖风昔人 2022-09-04 09:39:47 18 0

pyspider如何处理重定向问题?

之前用pyspider爬动态网页都好使,这次就报错,如右图。 在浏览器的开发者工具的network里看请求的js文件, 都是304。 所以我在想是不是爬的时候报错…

纸伞微斜 2022-09-04 09:39:46 13 0

pyspider运行出错

请问是什么原因? …

掐死时间 2022-09-04 09:39:44 7 0

关于connect_timeout无效的问题

我设置了connect_timeout,但是在运行时没有起作用。请问如何解决? 代码如下: @every(minutes=24 * 60) def on_start(self): self.crawl('http://?…

别念他 2022-09-04 09:33:47 11 0

pyspider如何写文本日志?

用pyspider的时候想打点文本日志,写logging.basicConfig(filename='xxx/log.txt', level=logging.INFO)这样的会报错,大概研究了下应该是默认import…

单身狗的梦 2022-09-04 09:27:46 11 0

pyspider错误"method not allowed!"

python32位,pyspider安装成功了,但是执行pyspider all后,在localhost指定端口抛出提示:method not allowed! 配置有问题? …

ペ泪落弦音 2022-09-04 09:11:42 14 0

pyspider中可以使用time.sleep()吗?

最近刚开始上手使用pyspider写爬虫,因为经常被ban,所以想下调一下抓取速率。尝试在脚本里用time.sleep(),发现效果不是我想像中的。一个最简单的示…

北笙凉宸 2022-09-04 09:09:51 16 0

有没有pyspider 项目定时启动的方法?

1.有个爬虫项目我想要定时启动,比如在凌晨1点的时候启动跑一次数据。我只找到了every可以配置每隔多长时间启动。 2.我现在想到两种方法,一种是使用…

你好,陌生人 2022-09-04 08:32:52 12 0

如何每次执行脚本时, 把先前的Results清空

想自动抓取一个每天都会更新的网站, 因为资料有立即性, 所以前一天抓取的旧资料可以完全清除, 目前已完成抓取方面的程序, 但不知道要如何才能清除先…

深居我梦 2022-09-04 08:29:17 28 0

pyspider设置crawl_config代理服务器无效

需要爬取的网站服务器把我的ip封了,于是我用了可以动态切换ip的代理ip,但是还是拿不到数据,crawl_config设置无效,求解 …

心的位置 2022-09-04 08:29:04 10 0
更多

推荐作者

lixs

文章 0 评论 0

敷衍 

文章 0 评论 0

盗梦空间

文章 0 评论 0

tian

文章 0 评论 0

13375331123

文章 0 评论 0

你对谁都笑

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文