文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
智能采集规则开发
Recipe development via AI creator
采集列表页面是常见的采集任务。迷你派采集器为列表页面提供自动规则生成器。打开目标列表页面后,等待页面装载完成后,单击管理界面上的"智能采集"按钮, NDS开始自动探测网页上有价值的结构化数据。 同时当前页面右侧将显示一个新的规则编辑窗口. 等到探测过程结束后,NDS会将探测到的数据和分页按钮显示在编辑窗口中。
功能点 | 描述 |
---|---|
1 | 切换或移动编辑窗口 |
2 | 当前自动识别出的数据. 可以直接删除不需要的数据列,或者修改列名。说识别出的数据对应的网页区域也会被高亮显示 |
3 | 默认NDS尝试自动探测出最有价值的3个数据区域。如果成功探测出多个数据块,您可以点击这个按钮进行切换 |
4 | 如果存在分页按钮,NDS也会尝试自动探测。这儿NDS尝试自动探测 翻页按钮, 装载更多按钮,以及下滚装载等多种方式。如果无法识别,或者识别有误,您可以自动调整。相关分页设置参见 Pagination in detail |
5 | 在页面翻动之间执行的操作. 例如:如果目标网站速度比较慢,我们可以加入指令,设定等待翻页完成,待采集元素出现后再继续采集。指令相关内容请参见 Associate actions |
立即将当前识别的数据保存到本地的Excel文件(如果有分页配置,则按钮可不点击) | |
s保存规则。保存后,既可以马上启动,也可以以后启动 | |
s切换到可视化规则编辑器,可以对生成的规则做更多的修改。如果没有识别处结构化数据块,则切换到可视化编辑器时,默认只有一个打开网页的指令 |
点击'完成'按钮时, 弹出保存窗口.
在此您可以指定
- 规则名称
- 规则执行频率(下次重新运行时可以随时调整)
- 输出数据表名(下次重新运行时可以随时调整)
- 去重字段,一旦设定,则所有重复数据将不再输出。
- 运行结束时,是否发送通知.
这儿我们可以保存并立刻执行规则,或者保存规则等待后续执行。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论