Scrapy - 没有列表页面，但我知道每个项目页面的网址

发布于 2024-11-07 06:41:26 字数 563 浏览 4 评论 0原文

我正在使用 Scrapy 来抓取网站。我想要抓取的项目页面如下所示： http://www.somepage.com /itempage/&page=x。其中 x 是从 1 到 100 之间的任意数字。因此，我有一个 SgmlLinkExractor 规则，其中为任何与此类似的页面指定了回调函数。

该网站没有包含所有项目的列表页面，因此我想以某种方式很好地抓取这些网址（从 1 到 100）。这个人在这里< /a> 似乎有同样的问题，但无法弄清楚。

有人有解决办法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

遮了一弯 2024-11-14 06:41:26

您可以在 Spider 中列出所有已知的 URL类' start_urls 属性：

class SomepageSpider(BaseSpider):
    name = 'somepage.com'
    allowed_domains = ['somepage.com']
    start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]

    def parse(self, response):
        # ...

You could list all the known URLs in your Spider class' start_urls attribute:

class SomepageSpider(BaseSpider):
    name = 'somepage.com'
    allowed_domains = ['somepage.com']
    start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]

    def parse(self, response):
        # ...

回复收藏 0 原文