文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
采集加速
采集加速
作为浏览器扩展,NDS 使用浏览器的特性进行数据抓取。 因此,任何使浏览器页面加载速度更快的操作也将有助于使 NDS 抓取速度更快。
通过加快页面加载速度来加快抓取速度
- 屏蔽广告
- 如果您不想抓取图像/视频,请阻止它们
- 如果您只想抓取静态内容,请阻止 Javascript
Google WebStore有许多扩展程序可以帮助您实现这一目标。
除了这些方法,还有一些其他的场景:
- 抓取一个搜索结果,继续对每个item做深度抓取,向前和向后导航比较耗时
- 抓取具有相同结构的 URL 列表,我们可以并行抓取多个 URL 吗?
对于第一种场景,我们可以将深度采集规则拆分成几个小的规则,然后将它们集成到工作流中,整个采集过程仍然是自动的。
通过将复杂的规则分成更小的规则来加速抓取
- 步骤1: 创建一个仅抓取搜索结果项的规则。 该规则模拟搜索并进行分页以抓取每个项的基本信息和详细 URL 地址。
- 步骤2: 创建另一个规则以接受第一个规则的输出表作为输入表,在输入表中逐个打开详细信息 URL,并为每个项抓取详细信息。 有关如何创建详细信息抓取的更多详细信息,请参阅 详情页采集
- 步骤3: 更新第一个规则的全局触发器以在第一个规则完成时启动第二个规则。 有关如何将配方集成到工作流程中的更多详细信息,请参阅规则工作流
我们如何将一个复杂的规则分成几个小规则。 这里我们发现第二个规则被重复执行 对于每个 URL。 接下来我们将展示如何并行进行这种重复抓取。
通过并行运行多个配方实例来加速抓取
如果只有一个配方接受参数输入,无论是 URL、关键字还是多个参数,NDS 都可以通过在您自己的浏览器中并行执行来加速它。
您需要做的很简单: 批量输入多个参数行或指定参数输入表; 指定启动规则时要运行的并行实例数;
更多详情请参考 批量采集
该视频演示了如何通过运行多个实例来加速抓取。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论