当前位置：文江博客话题详情

在存储的数据上重放 Scrapy 蜘蛛

发布于 2024-12-10 11:13:59 字数 424 浏览 0 评论 0原文

我已经开始使用 Scrapy 来抓取一些网站。如果我稍后向我的模型添加新字段或更改我的解析函数，我希望能够离线“重播”下载的原始数据以再次抓取它。看起来 Scrapy 能够在某一时刻将原始数据存储在重播文件中：

http://dev.scrapy.org/browser/scrapy/trunk/scrapy/command/commands/replay.py?rev=168

但是这个功能似乎在当前版本中被删除了Scrapy 版本。还有其他方法可以实现这一目标吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

站稳脚跟 2024-12-17 11:13:59

如果您运行crawl --record=[cache.file] [scraper]，您就可以使用replay [scraper]。

或者，您可以使用 HttpCacheMiddleware 将其包含在 DOWNLOADER_MIDDLEWARES 中：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 300,
}

如果这样做，每次运行scraper，它会首先检查文件系统。

If you run crawl --record=[cache.file] [scraper], you'll be able then use replay [scraper].

Alternatively, you can cache all responses with the HttpCacheMiddleware by including it in DOWNLOADER_MIDDLEWARES:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 300,
}

If you do this, every time you run the scraper, it will check the file system first.

回复收藏 0 原文

倾听心声的旋律 2024-12-17 11:13:59

您可以按照所述启用 HTTPCACHE_ENABLED http:// /scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html?highlight=FilesystemCacheStorage#httpcache-enabled

缓存所有http请求和响应来实现简历爬取。

或者尝试暂停和恢复抓取作业
http://scrapy.readthedocs.org/en/latest/topics/jobs.html

回复收藏 0 原文

~没有更多了~

关于作者

兰花执着

暂无简介

0 文章

0 评论

23 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

在存储的数据上重放 Scrapy 蜘蛛

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签