抓取特定 html 元素的一批 url 并检索图像的最佳方法是什么?
我希望抓取约 100 个具有相同结构的网页,但我需要的图像在每个实例中具有不同的名称。
图像标签位于:
#content div.artwork img.artwork
并且我需要下载该结果的 src url。
有什么想法吗?我的 url 位于 .txt 文件中,并且位于 mac os x 盒子上。
I'm looking to crawl ~100 webpages that are of the same structure, but the image I require is of a different name in each instance.
The image tag is located at:
#content div.artwork img.artwork
and I need the src url of that result to be downloaded.
Any ideas? I have the urls in a .txt file, and am on a mac os x box.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我不确定如何在文件上使用“选择器”之类的查询,但 Perl 正则表达式也可以完成这项工作:
I am not sure how you can utilize a 'selector' like query on the file but a Perl regex might do the job just as well: