返回介绍

批量URL采集

发布于 2023-08-18 22:08:46 字数 5477 浏览 0 评论 0 收藏 0

批量URL采集

我们想要采集类似结构的网页, 如:

以Yelp为例,. 在 详情页采集]中, 我们已经定义了如何采集Yelp的一个具体餐厅信息. 现在我们有一批餐厅地址:

https://www.yelp.com/biz/the-table-san-jose
https://www.yelp.com/biz/3rd-and-bourbon-san-jose-2
https://www.yelp.com/biz/kings-fish-house-san-jose-san-jose
https://www.yelp.com/biz/paper-plane-san-jose-2
https://www.yelp.com/biz/%C3%A9lyse-restaurant-san-jose-2

改造规则:

点击打开网址右侧的 ( ) 图标, 为网址输入设定一个参数.表示接受参数化输入接口.

在参数设置对话框中:

  • 参数名称: 必须. 会显示在规则启动窗口中
  • 参数可选值: 可选。一旦设定,则输入的参数值只能是这儿列举出来的值之一
  • 默认值: 必须。参数的默认值.如果设定了参数可选值,则默认值也必须是可选值之一。

保存并启动规则, 其界面变化如下

参数输入方式UI说明
单个输入一次输入一个规则的各个参数组合。
批量输入一次可以输入多个规则的参数组合

这儿我们选择‘批量输入’, 而后将URL列表复制到输入框中。采集结果如下所示

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文