经常出现database is locked是怎么回事?rate/burst设置为1/1还是会有这个问题

发布于 2022-09-04 01:21:11 字数 572 浏览 17 评论 0

如图所示:图片描述

1.这是什么问题呢?将rate/burst设置为1/1还是会有,该如何解决?

2.点到tasks界面选择任意一个success的链接进来,看到会有"HTTP 304: Not Modified"错误,这是原来已经爬取过了的意思吗?

图片描述

3.还有就是爬取的网站有很多页,然后每页又是一个列表界面,点击列表界面的单个链接就进入相应的详细信息界面,理论上不应该是按照顺序爬吗,第一页爬完爬第二页一次类推,为什么看终端或者active tasks里面都不是按照顺序爬的,有时是几十页,然后又跳到几百页去了,这样就有时候会漏掉很多没有爬到,这种情况如何解决,所以我就想让他严格的按照顺序爬取。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

你穿错了嫁妆 2022-09-11 01:21:11

你是用正则或者xpath把所有列表页的url取出来爬的么,应该不会漏掉吧,你可以从数据库里去查是不是爬过某个列表url

§对你不离不弃 2022-09-11 01:21:11
  1. 应该是多线程导致的问题,算是个 bug 吧。

  2. 如果你没有指定优先级,不保证顺序。但是如果连接已经提交了,那么是不会漏掉的。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文