返回介绍

文件图片采集

发布于 2023-08-18 22:08:46 字数 9013 浏览 0 评论 0 收藏 0

文件图片采集

在抓取过程中,除了文本内容之外,我们要抓取一些文件,例如图像、视频、pdf 文档。 当我们浏览网页时,我们通常通过4种方式手动从页面下载文件:

  1. 点击一个按钮/链接,浏览器开始自动下载文件
  2. 右击图片,点击“图片另存为”,将图片保存到本地。 这里无论目标元素是图片的 src 是 URL,还是 base64 字符串,我们都可以成功下载图片
  3. 右击文件链接,点击“链接另存为”项,下载链接后面的文件
  4. 除了这些场景,还有一个特殊的场景是网页通过css显示图片:

    在这里你会发现页面使用了一个 css 特性,background-image 属性,来显示图像。对于此类图像,您无法通过右键单击轻松保存。

    现在 NDS 支持场景 1、2 和 4。

    对于场景 1,我们需要做的是对目标元素施加点击动作。此处单击操作可以在 Transit 节点中,也可以在字段的预操作列表中。运行配方时,将单击该元素,浏览器将开始自动加载文件。该文件只能下载到本地文件夹。为避免在下载前询问每个文件的保存位置,您必须在运行此类配方之前关闭浏览器上的开关。请参考【提示-关闭下载询问】(#)

    对于场景 2 和 4,您为目标元素声明一个字段,当将“Src(Image)”或“Css 背景图像 URL”设置为该字段的提取属性时,NDS 将显示下载 (D/L) 复选框。选中该框告诉 NDS 提取图像的 URL,然后下载图像。

    保存规则时,我们会告诉 NDS 将图像存储在哪里。现在图像可以保存到本地或远程云存储。支持百度云盘。

    设置字段为地址(图片/视频/iFrame)并勾选 下载选择图片并保存目标
    设置属性为 地址(图片/视频/iFrame) 或 CSS背景图片地址*

注意: 要执行下载,NDS 需要“下载”权限,这将在您第一次运行带有图像下载的规则时请求。

单击“允许”以启用 NDS 下载图像。

授予下载权限为一次性操作,重启浏览器后生效。

下载提示

  • 关闭浏览器的下载询问 如果您打算将图像下载到本地文件夹,则下载过程由浏览器控制。 默认情况下,您的浏览器会在下载前询问您每个文件的保存位置,这会中断 NDS 的下载。 停止询问,以Chrome为例,打开Chrome的设置,切换到下载部分:

    选择 NDS 将文件下载到的目标文件夹,并停止“下载前询问每个文件的保存位置”。

  • 将下载的文件保存到百度网盘 如果你想抓取图片并保存到百度盘,你需要做的是通过弹出/设置/3rd Party Apps创建一个百度盘存储应用程序,然后在保存规则时选择该应用程序为“保存文件到”。

视频 - 如何将文件抓取到本地

Image Scraping (to local)

视频 - 如何抓取文件到百度盘

Image Scraping (to Baidu cloud storage)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文