文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
数据管道
数据管道
与工作流一起,我们可以使数据在配方中作为管道流动。 通过数据管道,我们可以实现这样的场景:
- 一个规则负责监控目标网页中的任何新数据,第二个规则以增量方式抓取新数据
- 异常退出造成的断点继续抓取。
数据管道背后的逻辑看起来像瀑布:
这里第一个规则从网站1抓取数据,将数据存储到累积数据表1,并将新数据存储到增量数据表1。然后第二个配方从增量数据表1中读取数据,并进一步抓取数据。 一旦增量数据表 1 中的一行处理完毕,规则2 会将其从增量数据表 1 中删除。因此,只有通过规则1 新增的数据才会被规则2 处理。 规则2抓取的数据也可以保存到第二累积数据表和第二增量数据表中,管道可以连接到另一个规则进行增量数据抓取。 实现管道很容易: (1) 对于之前的规则,保存规则时,设置'数据存入'的数据表,设置去重字段,并声明'增量存到'的数据表。
(2) 对于下一个规则,选择上一个规则的增量表作为输入,并且在启动规则时,勾选“一旦处理就删除输入参数行”。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论