celery+redis+requests写爬虫该怎么设计

发布于 2022-09-03 19:37:54 字数 1232 浏览 10 评论 0

我想用celery+redis+requests写爬虫,自己测试了一下速度。采集url的状态码放入文件中。

from celery import Celery
import requests
app = Celery('tasks',
             broker = 'redis://localhost:6379/0',
             backend= 'redis://localhost:6379/1')

app.conf.CELERY_TASK_SERIALIZER = 'json'

@app.task
def page(url):
    p = requests.get(url).status_code
    file = open('result','a')
    file.write(str(p)+'\n')
    file.close()
    return p

结果很快很满意

/usr/bin/python2.7 /home/comboo/PycharmProjects/run.py
0.919842004776
Process finished with exit code 0

和单线程比较

34.3654260635

但是假如我输出task的结果,就会变成单线程一个个取出结果

#coding:utf-8
import time

from tasks import page

url = 'http://www.baidu.com'
# print page.delay(url).get()
cent = time.time()
for line in range(100):
    code = page.delay(url)
    print code.get()
print time.time() - cent

就是任务之外只要有语句速度就会变慢。

clipboard.png

现在造成的结果就是,我必须写一个完整的任务,从请求到解析到下载,再到存入数据库,通过celery来调度。
但是有时候我可能不想这样做,比如写入文件,我想一次性全部写入在关闭连接,而不是写入一行关闭一次连接

有点长,谢谢大家了。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文