返回介绍

智能采集规则开发

发布于 2023-08-18 22:08:47 字数 6945 浏览 0 评论 0 收藏 0

Recipe development via AI creator

采集列表页面是常见的采集任务。迷你派采集器为列表页面提供自动规则生成器。打开目标列表页面后,等待页面装载完成后,单击管理界面上的"智能采集"按钮, NDS开始自动探测网页上有价值的结构化数据。 同时当前页面右侧将显示一个新的规则编辑窗口. 等到探测过程结束后,NDS会将探测到的数据和分页按钮显示在编辑窗口中。

功能点描述
1切换或移动编辑窗口
2当前自动识别出的数据. 可以直接删除不需要的数据列,或者修改列名。说识别出的数据对应的网页区域也会被高亮显示
3默认NDS尝试自动探测出最有价值的3个数据区域。如果成功探测出多个数据块,您可以点击这个按钮进行切换
4如果存在分页按钮,NDS也会尝试自动探测。这儿NDS尝试自动探测 翻页按钮, 装载更多按钮,以及下滚装载等多种方式。如果无法识别,或者识别有误,您可以自动调整。相关分页设置参见 Pagination in detail
5在页面翻动之间执行的操作. 例如:如果目标网站速度比较慢,我们可以加入指令,设定等待翻页完成,待采集元素出现后再继续采集。指令相关内容请参见 Associate actions
立即将当前识别的数据保存到本地的Excel文件(如果有分页配置,则按钮可不点击)
s保存规则。保存后,既可以马上启动,也可以以后启动
s切换到可视化规则编辑器,可以对生成的规则做更多的修改。如果没有识别处结构化数据块,则切换到可视化编辑器时,默认只有一个打开网页的指令


点击'完成'按钮时, 弹出保存窗口.

在此您可以指定

  • 规则名称
  • 规则执行频率(下次重新运行时可以随时调整)
  • 输出数据表名(下次重新运行时可以随时调整)
  • 去重字段,一旦设定,则所有重复数据将不再输出。
  • 运行结束时,是否发送通知.

这儿我们可以保存并立刻执行规则,或者保存规则等待后续执行。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文