当前位置：文江博客话题详情

爬取多个不同深度的起始url

发布于 2024-12-11 14:02:34 字数 191 浏览 0 评论 0原文

我正在尝试让 Scrapy 0.12 更改蜘蛛中 start_urls 变量中不同 url 的“最大深度”设置。

如果我正确理解文档，则没有办法，因为 DEPTH_LIMIT 设置对于整个框架来说是全局的，并且不存在“请求源自初始请求”的概念。

有办法绕过这个吗？是否可以使用每个起始 url 和不同的深度限制初始化同一蜘蛛的多个实例？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

孤城病女 2024-12-18 14:02:35

抱歉，看来我从一开始就没有正确理解你的问题。更正我的答案：

响应在元中具有深度键。您可以检查并采取适当的措施。

class MySpider(BaseSpider):

    def make_requests_from_url(self, url):
        return Request(url, dont_filter=True, meta={'start_url': url})

    def parse(self, response):
        if response.meta['start_url'] == '???' and response.meta['depth'] > 10:
            # do something here for exceeding limit for this start url
        else:
            # find links and yield requests for them with passing the start url
            yield Request(other_url, meta={'start_url': response.meta['start_url']})

http://doc.scrapy.org/en /0.12/topics/spiders.html#scrapy.spider.BaseSpider.make_requests_from_url

Sorry, looks like i didn't understand you question correctly from the beginning. Correcting my answer:

Responses have depth key in meta. You can check it and take appropriate action.

class MySpider(BaseSpider):

    def make_requests_from_url(self, url):
        return Request(url, dont_filter=True, meta={'start_url': url})

    def parse(self, response):
        if response.meta['start_url'] == '???' and response.meta['depth'] > 10:
            # do something here for exceeding limit for this start url
        else:
            # find links and yield requests for them with passing the start url
            yield Request(other_url, meta={'start_url': response.meta['start_url']})

http://doc.scrapy.org/en/0.12/topics/spiders.html#scrapy.spider.BaseSpider.make_requests_from_url

回复收藏 0 原文

~没有更多了~