pysipder设定了age和auto_recrawl之后的任务状态是否(会由于被重新调度而)一直为active

发布于 2022-09-06 01:34:25 字数 998 浏览 29 评论 0

代码如下,我测试中是设定60s执行一次,设定了age和auto_recrawl,看上去任务是在执行,但我想询问下任务是不是会由于设定了定时任务,所以一直都是active,即便是执行成功也会立马切换成active以保证下次抓取

class Handler(BaseHandler):
    crawl_config = {
    }

    #@every(minutes=24 * 60)
    @config(age=60)
    def on_start(self):
        ......
        self.crawl('http://www.xxx.xxx.xxx', callback=self.index_page, save=save_data,age=60,auto_recrawl=True)

    @config(age=60)
    def index_page(self, response):
        .......
        self.crawl('xxxxxxx', callback=self.detail_page, save=save_data,age=60,auto_recrawl=True)
    .....

图片描述

任务的详情页面,看lastcrawltime 和 lastexecutetime 确实是发生在定时任务内
图片描述

我想问的是,这种情况是正常的吗?如果是,我能有什么方法去验证其是否正常抓取完成了呢?因为我看到的结果很有可能是库里面已经存有的结果,id是不变的话
有什么我理解错误的地方,希望指出来,谢谢了

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

何必那么矫情 2022-09-13 01:34:25

正常,看 lastcrawltime

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文