做一个好公民和网络抓取

发布于 2024-12-21 19:05:36 字数 459 浏览 1 评论 0原文

我有一个由两部分组成的问题。

首先，我正在编写一个基于的网络爬虫Scrapy 中的 CrawlSpider 蜘蛛。我的目标是抓取一个拥有数千条（可能是数十万条）记录的网站。这些记录埋藏在起始页以下 2-3 层。所以基本上我让蜘蛛从某个页面开始，爬行直到找到特定类型的记录，然后解析 html。我想知道有哪些方法可以防止我的蜘蛛使网站超载？有没有可能有一种方法可以增量地执行操作或在不同的请求之间暂停？

其次，相关的是，是否有一种方法可以使用 Scrapy 来测试爬虫而不会对网站造成过度的压力？我知道您可以在程序运行时终止该程序，但是有没有办法让脚本在点击包含我想要抓取的信息的第一页之类的内容后停止？

任何建议或资源将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

堇年纸鸢 2024-12-28 19:05:36

有没有可能有一种方法可以增量地做事情

我正在使用 Scrapy 缓存功能来增量地抓取站点

HTTPCACHE_ENABLED = True

或者您可以使用新的 0.14 功能作业：暂停和恢复抓取

或者在不同的请求之间暂停？

检查此设置：

DOWNLOAD_DELAY    
RANDOMIZE_DOWNLOAD_DELAY

有没有一种方法可以使用 Scrapy 来测试爬虫而不会对网站造成过度的压力？

您可以尝试在 Scrapy shell 中调试代码

我知道您可以在程序运行时终止该程序，但是有没有办法让脚本在遇到诸如包含我想要抓取的信息的第一页之类的内容后停止？

另外，您可以致电

任何建议或资源将不胜感激。

Scrapy 文档是最好的资源。

Is there possibly a way to do thing's incrementally

I'm using Scrapy caching ability to scrape site incrementaly

HTTPCACHE_ENABLED = True

Or you can use new 0.14 feature Jobs: pausing and resuming crawls

or put a pause in between different requests?

check this settings:

DOWNLOAD_DELAY    
RANDOMIZE_DOWNLOAD_DELAY

is there a method with Scrapy to test a crawler without placing undue stress on a site?

You can try and debug your code in Scrapy shell

I know you can kill the program while it runs, but is there a way to make the script stop after hitting something like the first page that has the information I want to scrape?

Also, you can call scrapy.shell.inspect_response at any time in your spider.