抓取特定 html 元素的一批 url 并检索图像的最佳方法是什么?

发布于 2024-08-20 18:11:10 字数 207 浏览 3 评论 0原文

我希望抓取约 100 个具有相同结构的网页,但我需要的图像在每个实例中具有不同的名称。

图像标签位于:

#content div.artwork img.artwork

并且我需要下载该结果的 src url。

有什么想法吗?我的 url 位于 .txt 文件中,并且位于 mac os x 盒子上。

I'm looking to crawl ~100 webpages that are of the same structure, but the image I require is of a different name in each instance.

The image tag is located at:

#content div.artwork img.artwork

and I need the src url of that result to be downloaded.

Any ideas? I have the urls in a .txt file, and am on a mac os x box.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

末骤雨初歇 2024-08-27 18:11:10

我不确定如何在文件上使用“选择器”之类的查询,但 Perl 正则表达式也可以完成这项工作:

for url in `cat urls.txt`; do wget -O- $url; done | \
  perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/'

I am not sure how you can utilize a 'selector' like query on the file but a Perl regex might do the job just as well:

for url in `cat urls.txt`; do wget -O- $url; done | \
  perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/'
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文