scrapy怎么实现自定爬取深度?
我想实现对一个网址的图片进行下载,然后对该网址里面所有a标签的链接页面的图片进行下载,以此类推,这是我写的代码,求教大佬怎么做到在spider里用循环实现自定义深度啊
import scrapy
from ..items import ImgspiderItem
full_img_list = []
class TestSpiderSpider(scrapy.Spider):
name = 'test_spider'
url = input("请输入要爬取的网址:")
start_urls = [url]
def parse(self, response):
img_list = response.xpath('//img/@src').extract()
a_list = response.xpath('//a/@href').extract()
if img_list:
item = ImgspiderItem()
for img in img_list:
if img is not None:
if img[0:4]!='http':
img = 'https:'+img
full_img_list.append(img)
elif img[0:5]!='https':
img = 'https:'+img.split(':',1)[1]
full_img_list.append(img)
else:
full_img_list.append(img)
item['image_urls'] = full_img_list
yield item
for a in a_list:
if a is not None:
if a[0:4]!='http':
a = 'https:'+a
elif a[0:5]!='https':
a = 'https:'+a.split(':',1)[1]
yield scrapy.Request(
a,
callback=self.parse
)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论