爬取多个不同深度的起始url
我正在尝试让 Scrapy 0.12 更改蜘蛛中 start_urls 变量中不同 url 的“最大深度”设置。
如果我正确理解文档,则没有办法,因为 DEPTH_LIMIT 设置对于整个框架来说是全局的,并且不存在“请求源自初始请求”的概念。
有办法绕过这个吗?是否可以使用每个起始 url 和不同的深度限制初始化同一蜘蛛的多个实例?
I'm trying to get Scrapy 0.12 to change it's "maximum depth" setting for different url in the start_urls variable in the spider.
If I understand correctly the documentation there's no way because the DEPTH_LIMIT setting is global for the entire framework and there's no notion of "requests originated from the initial one".
Is there a way to circumvent this? Is it possible to have multiple instances of the same spider initialized with each starting url and different depth limits?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
抱歉,看来我从一开始就没有正确理解你的问题。更正我的答案:
响应在
元
中具有深度
键。您可以检查并采取适当的措施。http://doc.scrapy.org/en /0.12/topics/spiders.html#scrapy.spider.BaseSpider.make_requests_from_url
Sorry, looks like i didn't understand you question correctly from the beginning. Correcting my answer:
Responses have
depth
key inmeta
. You can check it and take appropriate action.http://doc.scrapy.org/en/0.12/topics/spiders.html#scrapy.spider.BaseSpider.make_requests_from_url