schedule内容不更新的问题。

发布于 2022-09-04 05:52:41 字数 1367 浏览 10 评论 0

用的github上最新的0.3.9版本,发现更改了project的代码后,schedule里面的内容居然没有更新,导致本来希望半小时抓取一次,结果爬虫是10秒钟爬取一次。不知道是不是bug,怎么解决。

代码是这样

class Handler(BaseHandler):
    crawl_config = {
        'headers':{
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36',
        }
}

    
    @every(minutes=30)
    def on_start(self):
        self.crawl('http://www.xxxx.org/', callback=self.index_page)

    @config(age=10)
    def index_page(self, response):

schedul是这样

注:原来有写itag,后来删除了。

ACTIVE xxxx.index_page > http://www.xxxx.org/ (8 seconds ago updated )

taskid
9dfac8d63cb01eae0e33701e26de4778
lastcrawltime
1480581196.0514488 (8 seconds ago)
updatetime
1480581196.0515082 (8 seconds ago)
exetime
1480581206.0514526 (1 second ago)
track.fetch  1320.64ms
{
  "content": null,
  "encoding": "GBK",
  "error": null,
  "headers": {},
  "ok": true,
  "redirect_url": null,
  "status_code": 200,
  "time": 1.3206377029418945
}
track.process  34.6ms +16
{
  "exception": null,
  "follows": 16,
  "logs": "",
  "ok": true,
  "result": null,
  "time": 0.03459787368774414
}
schedule
{
  "age": 10,
  "auto_recrawl": true,
  "exetime": 1480581206.0514526,
  "itag": "v223",
  "retried": 21
}
fetch
{}
process
{
  "callback": "index_page"
}

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

ま昔日黯然 2022-09-11 05:52:41

你设置了 auto_recrawl,请通过 http://docs.pyspider.org/en/l... 取消

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文