pyspider不能自动运行
1、点run能够爬取;
2、设置minutes=10 ,auto_recrawl=True
3、running状态任务并不能自动到时间自动爬取(磁盘有足够空间)
4、把pyspider终止再运行能爬取几条后,又会停止不动
下图是ssh里的把要爬的一部分url爬取为active后的状态(事实上有数据可以爬)
5、webui顶部一直是scheduler100 fetcher100
任务列表也不更新了
显示下图:只见active,不见success
6、系统环境:centos7 64位 ,pyspider0.3.8(git版),硬件是树莓派3
请问在哪里排查故障原因,怎么解决呢?
谢谢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
你在脚本里干嘛了?长时间执行不返回。
page_detail里是普通的获取文章内容,
只是在on_result里重写了POST发布到远程库(数据库链接操作测试是正常的)。
另外请问下,使用.json配置文件后还怎么启用多个fetcher或processor组件呢?谢谢~
{
"taskdb": "mysql+taskdb://luring:123@127.0.0.1:3306/taskdb",
"projectdb": "mysql+projectdb://luring:123@127.0.0.1:3306/projectdb",
"resultdb": "mysql+resultdb://luring:123@127.0.0.1:3306/resultdb",
"message_queue": "redis://127.0.0.1:6379/db",
"scheduler" : {
},
"webui": {
}
}