pyspider的on_finished()函数调用问题

发布于 2022-09-06 03:58:19 字数 2103 浏览 20 评论 0

本人的需求是：在操作一批量级比较大的库时，在库中添加了一个字段----是否被读取，每条数据有唯一id标识每一条记录，所以我每次操作完100条数据，就将起是否被读取的状态置为1，之后又去取得未读取的limit 100，循环如此一直到读完整个库。但测试的时候出现了一些问题，如下

from pyspider.libs.base_handler import *
import chardet,urllib
import os,ftplib
from ftplib import FTP

class Handler(BaseHandler):
    crawl_config = {
    }
    start = 0
    
    def on_start(self):
        self.crawl('www.baidu.com', callback=self.index_page,force_update=True)

    @every(minutes=24 * 60)
    def index_page(self, response):
        for each in list(response.doc('a[href^="http"]').items())[0:1]:
            self.start += 1
            self.crawl(each.attr.href, callback=self.detail_page,force_update=True)
        ftp_connect(self.start)
        
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }
    
    def on_finished(self, response, task):
        #pass
        #在这里改写回显操作
        ftp_connect(self.start)
        self.on_start()
        
def ftp_connect(start):
    ftp_server = "192.168.218.10"
    username = "ftpuser"
    password = "password"
    ftp = FTP()
    ftp.set_debuglevel(0)
    ftp.connect(ftp_server,21)
    ftp.login(username,password)
    #现在本地写一个temp.text文件，将其内容读出，传到服务器的ftp路径下，再删除temp.text文件
    a = open("temp.txt","wb").write("%d"%start)
    a = open("temp.txt","rb")
    ftp.storbinary("STOR lyric.txt",a)
    os.system("rm -f temp.txt")
    return None

如上代码，我在on_finished()中进行操作时候，发现其self.start并没有按照正常的值去返回，初始化值为0，在index_page()函数中进行过 +=1 操作，本应该是1，可是最后在ftp路径下查看的文件中的值是0或1(还出现2,3...)，如下图
图片描述

如上的结果，导致我在回写数据库（将是否被读取置为已读取）的时候出错，一个100条记录的任务需要执行多次才能全部置为已读取。也就是一个页面要抓取多次（大概5,6次....），暂时的解决方法是在读取完库之后立即回写，而不是在on_finished()中回写。但还是希望能了解到为什么on_finished()会出现这样的问题.

想请问下BaseHandler的运行方式，现在也正在看/pyspider/libs/base_handler.py，问题先挂出来，之后有了自己的想法再填充，希望大家能帮忙给点思路：比如class Handler(BaseHandler) 类是如何切换到task的，其中的各个def又是怎么转换成task....
先行谢谢了

分享到QQ

分享到微博