返回介绍

增量保存

发布于 2023-08-18 22:08:46 字数 4046 浏览 0 评论 0 收藏 0

增量保存

为什么需要增量数据

有几个数据抓取和监控场景需要增量数据保存功能。 例如,

  • 定期抓取新闻列表时,我们希望每次都抓取新发布的新闻。
  • 在监控产品价格时,我们只想保存价格变化
  • 深度抓取时,我们希望在开始时选择出新的 URL,只对新的 URL 进行深度抓取

要过滤掉新数据,并使用其他方法处理这些新数据,我们需要将数据保存在两个表中:

  • 累积数据表:帮助检查要抓取的数据是否是新的
  • 增量数据表:保存新抓取的数据。所有其他规则在此处处理数据,并在处理后清除数据。

如何配置增量数据保存 保存规则时,在配置“数据存入”数据表和“唯一”字段后,我们可以通过规则运行配置中的“增量存到”设置增量数据表。

在这里我们会发现只有当唯一字段不为空时才可以访问增量输入框。

当指定增量数据表时,NDS 将检查抓取的数据以查看其唯一字段的值是否存在于输出数据表中。 如果否,则该行将存储在此处。

您也可以选中“抓取新数据时通知我”。 因此,当新数据被抓取时,您将收到通知(消息类型在保存对话框的底部配置)。

现在我们有了所有的累积数据和增量数据,要实现页面开头描述的增量抓取,请参考 数据管道

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文