爬虫提示HTTP ERROR 599错误,不在访问需要爬的页面!

发布于 2022-09-01 22:05:28 字数 317 浏览 6 评论 0

爬虫提示HTTP ERROR 599错误,不在访问需要爬的页面!
重启服务器后,继续运行爬虫。就一直不启动。图片描述

进入代码编辑页面点击运行,单步运行,毫无问题!?请教老大,是哪里的问题!?
服务器是用的Centos7.1 Python版本是2.7.5 pyspider版本为0.3.5
如果pyspider版本有问题,pyspider 需要怎么升级呢?请教!!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

怪我太投入 2022-09-08 22:05:28

pyspider 中的一个脚本是否"执行", 取决于它其中的任务, 而任务都是持久化的, 所以重启并没有什么用.

一个任务是否执行, 取决于它当时所处的状态, 例如:

  • 是否active

  • 是否设定了执行时间(执行时间不一定是用户自定的, 也有可能是失败重试执行时间)

  • 根据上一次抓取时间和 age 设定, 是否满足重启条件

  • 任务会去重, 已经在队列中的人物不会被重启/接受(除非开了 force_update 参数)

而单步运行完全是和任务状态无关的.


所以, 你需要检查当前的任务状态是否符合预期.

你可以通过 http://demo.pyspider.org/task/project:taskid (taskid可以从单步调试中获得) 查看任务的状态

而你提到 HTTP ERROR 599, 一般都是无法连接, 是会超时重试的, 0.3.5 中第一次会立即重试, 第二次一小时, 之后 2^(retries-2) 天之后重试. 如果时间未到它是不会访问的.

哥,最终变帅啦 2022-09-08 22:05:28

Server Error. 599 Network Connect Timeout Error.

单ip爬的么?

信息不足呢

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文