关于监测页面变化与定时爬取增量的问题

发布于 2022-09-07 22:33:49 字数 390 浏览 8 评论 0

有一个项目,我要对页面每天19点开始爬,每隔30分钟爬取一次,直到爬取到增量内容后停止,然后明日19点再循环。配置如下

@every(minutes=30)
def on_start(self):
    ...


@config(age=24 * 60 * 60)
def index_page(self, response):
    ...
  1. 这样设置,every=每30分钟,age=每24小时,可以起到定时启动的效果吗?
    如果要发起每天19点开始的定时功能,除了第一次在19点点run之外,还有没有更合适的方法?
  2. 此外,该项目的网页,在内容相同的情况下,URL会变化。请问除了手动对比本地数据库之外,有没有更合适的办法去监测从而只爬取增量?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

甜扑 2022-09-14 22:33:49

第一个问题自己解决了:
调用Python的时间日期接口,用if判断即可。
第二个问题,由于URL会变动,也许我给出的是目前唯一可用的方法。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文