ScraperWiki 是否会对其抓取的网站进行速率限制?
ScraperWiki 是否会以某种方式自动限制抓取速率,或者我应该在循环中添加类似 sleep(1 * random.random()) 的内容?
Does ScraperWiki somehow automatically rate limit scraping, or should I add something like sleep(1 * random.random()) to the loop?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
没有自动速率限制。您可以添加用您的语言编写的睡眠命令来添加速率限制。
很少有服务器检查速率限制,并且通常包含公共数据的服务器不检查。
然而,确保远程服务器不会超载是一个很好的做法。默认情况下,抓取工具仅在一个线程中运行,因此您可以产生的负载存在内置限制。
There is no automatic rate limiting. You can add a sleep command written in your language to add rate limiting.
Very few servers check for rate limiting, and usually servers containing public data don't.
It is, however, good practice to make sure you don't overrun the remote server. By default, scrapers only run in one thread, so there is a built in limit to the load you can produce.