返回介绍

数据管道

发布于 2023-08-18 22:08:46 字数 3594 浏览 0 评论 0 收藏 0

数据管道


与工作流一起,我们可以使数据在配方中作为管道流动。 通过数据管道,我们可以实现这样的场景:

  • 一个规则负责监控目标网页中的任何新数据,第二个规则以增量方式抓取新数据
  • 异常退出造成的断点继续抓取。

数据管道背后的逻辑看起来像瀑布:

这里第一个规则从网站1抓取数据,将数据存储到累积数据表1,并将新数据存储到增量数据表1。然后第二个配方从增量数据表1中读取数据,并进一步抓取数据。 一旦增量数据表 1 中的一行处理完毕,规则2 会将其从增量数据表 1 中删除。因此,只有通过规则1 新增的数据才会被规则2 处理。 规则2抓取的数据也可以保存到第二累积数据表和第二增量数据表中,管道可以连接到另一个规则进行增量数据抓取。 实现管道很容易: (1) 对于之前的规则,保存规则时,设置'数据存入'的数据表,设置去重字段,并声明'增量存到'的数据表。

(2) 对于下一个规则,选择上一个规则的增量表作为输入,并且在启动规则时,勾选“一旦处理就删除输入参数行”。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文