请教:Python多进程编程时出现raise ValueError("Pool not running") 为什么?。

发布于 2022-09-11 14:25:47 字数 3086 浏览 37 评论 0

问题描述

我在进行多线程编程时使用如下方代码,当输入一般print()等简单函数时均正常,
但是一旦为调用我自己的函数时运行就会出现 : raise ValueError("Pool not running") ValueError: Pool not running

问题出现的环境背景及自己尝试过哪些方法

我是在做爬虫,想用多进程增加效率 多进程的Func里放的是取页面ID的函数

我在网上查找时有说是pool.close(),pool.join()缩进的原因,但是我试过好像还是没解决。
而且已知我的main函数有两个for循环,当我的缩进为最外层循环时,程序不是被join()阻塞等待运行完成,而是会继续生成进程运行程序,生成数会超过我的Pool=5的最大限制。

对多进程编程还是初学,希望能够有遇见过的指点一下。谢谢!

相关代码

// 请把代码文本粘贴到下方(请勿用图片代替代码)

def getPageId(jobname,joburl):

print('程序启动')
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='', db='test', charset='utf8')
cursor = db.cursor()
url = 'https://www.lagou.com/jobs/positionAjax.json?'
PageId = []
proxeys = RdProxeys()
n = 0
print(jobname)
# for i in range(len(jobname)):
for j in range(1, 31): # 每页固定页数:30
    datas['pn'] = j
    # datas['kd'] = jobname[i]
    datas['kd'] = jobname
    # 设置防盗链
    # headers1['Referer'] = parse.quote(joburl[i])
    headers1['Referer'] = parse.quote(joburl)
    print(datas)
    rdtime = random.randint(3, 10)
    print('sleep ' + str(rdtime) + ' sec')
    time.sleep(rdtime)
    print(proxeys)
    req = requests.post(url, headers=headers1, data=datas, proxies=proxeys)
    # print(type(req.json()['success']))
    if req.json()['success'] is bool('true'):
        # print(req.text)
        n = n + 1
        content = req.json()['content']['hrInfoMap']
        # print(content)
        for key in content.keys():
            # print(key)
            PageId.append(key)
    else:
        print(req.json())
        if n < 5:
            DelProxeys(proxeys['http'])
            proxeys = RdProxeys()
            n = 0
            time.sleep(10)
            cntsql = 'select count(proxeys_body) from proxeys'
            cursor.execute(cntsql)
            (cnt,) = cursor.fetchone()
            while int(str(cnt)) < 20:
                time.sleep(300)
                cursor.execute(cntsql)
                (cnt,) = cursor.fetchone()
        else:
            proxeys = RdProxeys()
            n = 0
            time.sleep(10)
        print('-----------------Error, The Pn is ' + str(j) + '----------------------')
        with open('E:\\vscode_work\\CareerPython\\Lagou\\' + 'PageId_log' + '.txt', 'a') as f:
            f.write(str(j)+','+jobname[i]+','+joburl[i]+'\n')
        pass
# print(PageId)
with open('E:\\vscode_work\\CareerPython\\Lagou\\' + 'PageId' + '.txt', 'a') as f:
    f.write(str(PageId))
print('当前共记录数据' + str(len(PageId)))


def main():
    pool = Pool(processes=5)   # set the processes max number 3
    for i in range(0, len(data()[0])):
        for j in range(0,len(data()[0][i]))
            pool.apply_async(getPageId, (data()[0][i][j], data()[1][i][j]))
        pool.close()
        pool.join()
    
    

if name == "__main__":

main()

你期待的结果是什么?实际看到的错误信息又是什么?

我将数据分组为5个一组输入 getpageid方法,期待能够实现5个进程并行运行程序,一组数据完了以后for循环驱动下一组数据输入继续运行。
结果总是发起5个进程后就出现raise ValueError("Pool not running") ValueError: Pool not running

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

往昔成烟 2022-09-18 14:25:47
for i in range(0, len(data()[0])):
    for j in range(0,len(data()[0][i]))
        pool.apply_async(getPageId, (data()[0][i][j], data()[1][i][j]))
    pool.close()
    pool.join()
    

你这就是缩进不对,而且缩进错误导致逻辑上也是错误的,所以你这段代码是不成立的。

简单来说,进程池对象应该将所有的进程添加之后再关闭,在关闭之后是不可以再向里面添加进程的。

你的pool.close()放在了内层循环里,也就是i=0这个循环结束前,你的进程池就已经关闭,并且尝试运行进程池中当前包含的进程。

而下个循环,即i=1时,该进程池对象又试图添加进程,所以会出错:pool not running,意味着你的进程池不在运行中,因为你的pool在i=0的循环中,已经关闭并且执行完毕所有的进程,该pool的生命周期已经结束了。

所以你的代码应当写为

pool = multiprocessing.Pool()

for i in range(0, len(data()[0])):
    for j in range(0,len(data()[0][i]))
        pool.apply_async(getPageId, (data()[0][i][j], data()[1][i][j]))
pool.close()
pool.join()

在全部进程都放入pool之后再调用pool.close()关闭进程池,然后使用poll.join()运行。

另外一点是,进程池的大小并不是指里面进程的多少,而是指进程池里面最多能有多少个进程处于活跃状态。

比如你定义pool=Pool(4),你可以往里面添加上千个进程,但是每次只会有4个进程在活跃状态,被分配到各个cpu上执行,等其中之一完成之后才会分配给第5个进程cpu。

Pool()的大小默认为电脑的核心数,就是希望每个进程能分配到一个cpu进行执行,是典型的专用处理机分配方式.

所以你说的,生成数会超过你的pool=5(我觉得你想表达进程池大小为5),并没有任何问题,所有的这些进程并不会竞用处理机,而是只有5个在抢占处理机,其他的所有进程都被阻塞。

它的工作状态跟你想达到的状态是一致的,因此你的担心是多余的。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文