当前位置：文江博客话题详情

使用scrapy框架爬取数据，前面爬取正常，最后一直爬取最后一页的数据，爬虫不停止

发布于 2022-09-12 23:23:34 字数 2098 浏览 30 评论 0

使用的是pycharm，爬虫

mport scrapy
from zuowen.items import ZuowenItem
 
class ZuoweneSpider(scrapy.Spider):
    name = 'zuowene'
    allowed_domains = ['https://www.zuowen.com']
    start_urls = ['https://www.zuowen.com/xiaoxue/ernianji/']
 
    def parse(self, response):
        #写人作文网址获取
        xieren = response.xpath("//div[@class='tczw_c']/div[1]/div[1]/ul/li[1]/a/@href").extract_first()
        yield scrapy.Request(url=xieren,
                             callback=self.parse_url,
                             dont_filter=True)
 
    #处理网址
    def parse_url(self, response):
        tr_list = response.xpath("//div[@class='artlist_l']/div")[1:-1]
        for tr in tr_list:
            item = ZuowenItem()
            item["title"] = tr.xpath("./div[1]/a/text()").extract_first()
            item["url"] = tr.xpath("./div[2]/a/@href").extract_first()
            item["category"] = tr.xpath("//div[@class='artlist_l_t']/h1/a/text()").extract_first()
 
            yield scrapy.Request(
                item["url"],
                callback=self.parse_detail,
                meta={"item": item},
                dont_filter=True
            )
 
            #翻页
            next_ur1 = response.xpath("//div[@class='artpage']/a[text()='下一页']/@href").extract_first()
            if next_ur1 is not None:
                yield scrapy.Request(next_ur1,
                                     callback=self.parse_url,
                                     dont_filter=True
                                     )
 
 
    # 处理详情，抓取作文内容
    def parse_detail(self, response):
        item = response.meta["item"]
        item["content"] = response.xpath("//div[@class='con_content']//text()").extract()
        yield item

items

import scrapy
 
class ZuowenItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #标题
    title=scrapy.Field()
    #网址
    url=scrapy.Field()
    #作文内容
    content=scrapy.Field()
    #分类
    category=scrapy.Field()

剩下没有设置

已经试过将dont_filter=True改为Flase，但玩之后连内容都没有了

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

凯凯我们等你回来

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文