返回介绍

6.3 访问 item

发布于 2024-01-30 22:48:37 字数 1256 浏览 0 评论 0 收藏 0

现在,我们需要前往任务页,如图6.6所示。在该页中,可以查看到我们的item(9),并确保其没有问题。我们还可以使用上面的控件进行过滤。当向下滚动页面时,更多的item会被自动加载出来。

图6.6 查看及导出item

如果存在一些没能正常运行的情况,可以在Items上方的RequestsLog中找到有用的信息(10)。可以使用顶部的面包屑导航回到爬虫或项目中(11)。当然,也可以通过单击左上方的Items按钮(12),选择合适的选项(13),将item以常见的CSV、JSON、JSON行等格式下载下来。

另一种访问item的方式是通过Scrapinghub提供的Items API。我们所需做的就是查看任务或items页面中的URL,类似于下面这样。

https://dash.scrapinghub.com/p/28814/job/1/1/

在该URL中,28814是项目编号(之前在scrapy.cfg文件中设置过该值),第一个1是该爬虫的编号/ID(即"tomobile"爬虫),而第二个1则是任务编号。以上述顺序使用这3个数值,并使用我们的用户名/API Key进行验证,就可以在控制台中使用curl建立到https://storage.scapinghub.com/ items/<project id>/<spider id>/<job id>的请求,获取item,该过程如下所示。

$ curl -u 180128bc7a0.....50e8290dbf3b0: https://storage.scrapinghub.com/
items/28814/1/1
{"_type":"PropertiesItem","description":["same\r\nsmoking\r\nr...
{"_type":"PropertiesItem","description":["british bit keep eve...
...

如果它请求输入密码,我们将其留空即可。允许编程访问数据的特性使得我们可以编写应用,使用Scrapinghub作为数据存储后端。不过需要注意的是,这些数据并不是无限期存储的,而是依赖于订阅方案中的存储时间限制(对于免费方案来说该限制为7天)。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文