当前位置：文江博客话题详情

requests Redis Celery

celery+redis+requests写爬虫该怎么设计

发布于 2022-09-03 19:37:54 字数 1232 浏览 13 评论 0

我想用celery+redis+requests写爬虫，自己测试了一下速度。采集url的状态码放入文件中。

from celery import Celery
import requests
app = Celery('tasks',
             broker = 'redis://localhost:6379/0',
             backend= 'redis://localhost:6379/1')

app.conf.CELERY_TASK_SERIALIZER = 'json'

@app.task
def page(url):
    p = requests.get(url).status_code
    file = open('result','a')
    file.write(str(p)+'\n')
    file.close()
    return p

结果很快很满意

/usr/bin/python2.7 /home/comboo/PycharmProjects/run.py
0.919842004776
Process finished with exit code 0

和单线程比较

34.3654260635

但是假如我输出task的结果，就会变成单线程一个个取出结果

#coding:utf-8
import time

from tasks import page

url = 'http://www.baidu.com'
# print page.delay(url).get()
cent = time.time()
for line in range(100):
    code = page.delay(url)
    print code.get()
print time.time() - cent

就是任务之外只要有语句速度就会变慢。

现在造成的结果就是，我必须写一个完整的任务，从请求到解析到下载，再到存入数据库，通过celery来调度。
但是有时候我可能不想这样做，比如写入文件，我想一次性全部写入在关闭连接，而不是写入一行关闭一次连接

有点长，谢谢大家了。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

如何视而不见

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

赏烟花じ飞满天

文章 0 评论 0

独守阴晴ぅ圆缺

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文