当前位置：文江博客话题详情

关于监测页面变化与定时爬取增量的问题

发布于 2022-09-07 22:33:49 字数 390 浏览 18 评论 0

有一个项目，我要对页面每天19点开始爬，每隔30分钟爬取一次，直到爬取到增量内容后停止，然后明日19点再循环。配置如下

@every(minutes=30)
def on_start(self):
    ...


@config(age=24 * 60 * 60)
def index_page(self, response):
    ...

这样设置，every=每30分钟，age=每24小时，可以起到定时启动的效果吗？
如果要发起每天19点开始的定时功能，除了第一次在19点点run之外，还有没有更合适的方法？
此外，该项目的网页，在内容相同的情况下，URL会变化。请问除了手动对比本地数据库之外，有没有更合适的办法去监测从而只爬取增量？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

甜扑 2022-09-14 22:33:49

第一个问题自己解决了：
调用Python的时间日期接口，用if判断即可。
第二个问题，由于URL会变动，也许我给出的是目前唯一可用的方法。

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文