pyspider不能自动运行

发布于 2022-09-03 15:27:25 字数 593 浏览 7 评论 0

1、点run能够爬取;
2、设置minutes=10 ,auto_recrawl=True
3、running状态任务并不能自动到时间自动爬取(磁盘有足够空间)
4、把pyspider终止再运行能爬取几条后,又会停止不动
下图是ssh里的把要爬的一部分url爬取为active后的状态(事实上有数据可以爬)
图片描述

5、webui顶部一直是scheduler100 fetcher100
任务列表也不更新了
显示下图:只见active,不见success
图片描述

6、系统环境:centos7 64位 ,pyspider0.3.8(git版),硬件是树莓派3

请问在哪里排查故障原因,怎么解决呢?
谢谢

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

逆夏时光 2022-09-10 15:27:25

你在脚本里干嘛了?长时间执行不返回。

滥情稳全场 2022-09-10 15:27:25

page_detail里是普通的获取文章内容,
只是在on_result里重写了POST发布到远程库(数据库链接操作测试是正常的)。

另外请问下,使用.json配置文件后还怎么启用多个fetcher或processor组件呢?谢谢~
{
"taskdb": "mysql+taskdb://luring:123@127.0.0.1:3306/taskdb",
"projectdb": "mysql+projectdb://luring:123@127.0.0.1:3306/projectdb",
"resultdb": "mysql+resultdb://luring:123@127.0.0.1:3306/resultdb",
"message_queue": "redis://127.0.0.1:6379/db",
"scheduler" : {

"xmlrpc-host": "0.0.0.0",
"delete-time": 3600

},
"webui": {

"port": 5000,
"username": "luring",
"password": "123",
"need-auth": true

}
}

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文