请教:Python多进程编程时出现raise ValueError("Pool not running") 为什么?。
问题描述
我在进行多线程编程时使用如下方代码,当输入一般print()等简单函数时均正常,
但是一旦为调用我自己的函数时运行就会出现 : raise ValueError("Pool not running") ValueError: Pool not running
问题出现的环境背景及自己尝试过哪些方法
我是在做爬虫,想用多进程增加效率 多进程的Func里放的是取页面ID的函数
我在网上查找时有说是pool.close(),pool.join()缩进的原因,但是我试过好像还是没解决。
而且已知我的main函数有两个for循环,当我的缩进为最外层循环时,程序不是被join()阻塞等待运行完成,而是会继续生成进程运行程序,生成数会超过我的Pool=5的最大限制。
对多进程编程还是初学,希望能够有遇见过的指点一下。谢谢!
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
def getPageId(jobname,joburl):
print('程序启动')
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='', db='test', charset='utf8')
cursor = db.cursor()
url = 'https://www.lagou.com/jobs/positionAjax.json?'
PageId = []
proxeys = RdProxeys()
n = 0
print(jobname)
# for i in range(len(jobname)):
for j in range(1, 31): # 每页固定页数:30
datas['pn'] = j
# datas['kd'] = jobname[i]
datas['kd'] = jobname
# 设置防盗链
# headers1['Referer'] = parse.quote(joburl[i])
headers1['Referer'] = parse.quote(joburl)
print(datas)
rdtime = random.randint(3, 10)
print('sleep ' + str(rdtime) + ' sec')
time.sleep(rdtime)
print(proxeys)
req = requests.post(url, headers=headers1, data=datas, proxies=proxeys)
# print(type(req.json()['success']))
if req.json()['success'] is bool('true'):
# print(req.text)
n = n + 1
content = req.json()['content']['hrInfoMap']
# print(content)
for key in content.keys():
# print(key)
PageId.append(key)
else:
print(req.json())
if n < 5:
DelProxeys(proxeys['http'])
proxeys = RdProxeys()
n = 0
time.sleep(10)
cntsql = 'select count(proxeys_body) from proxeys'
cursor.execute(cntsql)
(cnt,) = cursor.fetchone()
while int(str(cnt)) < 20:
time.sleep(300)
cursor.execute(cntsql)
(cnt,) = cursor.fetchone()
else:
proxeys = RdProxeys()
n = 0
time.sleep(10)
print('-----------------Error, The Pn is ' + str(j) + '----------------------')
with open('E:\\vscode_work\\CareerPython\\Lagou\\' + 'PageId_log' + '.txt', 'a') as f:
f.write(str(j)+','+jobname[i]+','+joburl[i]+'\n')
pass
# print(PageId)
with open('E:\\vscode_work\\CareerPython\\Lagou\\' + 'PageId' + '.txt', 'a') as f:
f.write(str(PageId))
print('当前共记录数据' + str(len(PageId)))
def main():
pool = Pool(processes=5) # set the processes max number 3
for i in range(0, len(data()[0])):
for j in range(0,len(data()[0][i]))
pool.apply_async(getPageId, (data()[0][i][j], data()[1][i][j]))
pool.close()
pool.join()
if name == "__main__":
main()
你期待的结果是什么?实际看到的错误信息又是什么?
我将数据分组为5个一组输入 getpageid方法,期待能够实现5个进程并行运行程序,一组数据完了以后for循环驱动下一组数据输入继续运行。
结果总是发起5个进程后就出现raise ValueError("Pool not running") ValueError: Pool not running
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
你这就是缩进不对,而且缩进错误导致逻辑上也是错误的,所以你这段代码是不成立的。
简单来说,进程池对象应该将所有的进程添加之后再关闭,在关闭之后是不可以再向里面添加进程的。
你的pool.close()放在了内层循环里,也就是
i=0
这个循环结束前,你的进程池就已经关闭,并且尝试运行进程池中当前包含的进程。而下个循环,即
i=1
时,该进程池对象又试图添加进程,所以会出错:pool not running
,意味着你的进程池不在运行中,因为你的pool在i=0
的循环中,已经关闭并且执行完毕所有的进程,该pool的生命周期已经结束了。所以你的代码应当写为
在全部进程都放入pool之后再调用
pool.close()
关闭进程池,然后使用poll.join()
运行。另外一点是,进程池的大小并不是指里面进程的多少,而是指进程池里面最多能有多少个进程处于活跃状态。
比如你定义pool=Pool(4),你可以往里面添加上千个进程,但是每次只会有4个进程在活跃状态,被分配到各个cpu上执行,等其中之一完成之后才会分配给第5个进程cpu。
Pool()
的大小默认为电脑的核心数,就是希望每个进程能分配到一个cpu进行执行,是典型的专用处理机分配方式.所以你说的,生成数会超过你的pool=5(我觉得你想表达进程池大小为5),并没有任何问题,所有的这些进程并不会竞用处理机,而是只有5个在抢占处理机,其他的所有进程都被阻塞。
它的工作状态跟你想达到的状态是一致的,因此你的担心是多余的。