pyspider是否提供了增量爬取相关接口
pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。
如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
pyspider 设计就是为了解决增量爬取问题的
你可以通过 age 刷新最近更新列表,用最后回复时间设置 itag,当有变化时自动重新抓取。