当前位置：文江博客话题详情

screen-scraping

抓取网站的请求数/第二标准是什么？

发布于 2024-09-03 14:55:37 字数 293 浏览 4 评论 0原文

这是与我的问题最接近的问题，但在我看来，它并没有得到很好的回答：

网络抓取礼仪

我正在寻找问题#1 的答案：

您应该每秒执行多少个请求来进行抓取？

现在我从链接队列中提取。每个被抓取的网站都有自己的线程，并在请求之间休眠 1 秒。我要求 gzip 压缩以节省带宽。

这有标准吗？当然，所有大型搜索引擎在这方面都有一套遵循的准则。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

许久 2024-09-10 14:55:37

有关网络爬行的维基百科文章提供了一些有关其他人正在做什么的信息：

Cho[22] 使用 10 秒作为
访问间隔和 WIRE
爬虫[28]使用15秒作为
默认。墨卡托网络爬虫
遵循适应性礼貌政策：
如果下载一个文件需要 t 秒
来自给定服务器的文档，
爬虫之前等待10t秒
下载下一页。[29]莳萝
等人。 [30]使用1秒。

我通常会尝试 5 秒，并带有一点随机性，这样看起来就不那么可疑了。

回复收藏 0 原文

可可 2024-09-10 14:55:37

对此没有固定的标准，这取决于网页抓取造成的负载有多大。只要您没有明显影响其他用户的网站速度，它就应该是可接受的抓取速度。

由于网站上的用户数量和负载不断波动，因此动态调整抓取速度是个好主意。

监视下载每个页面的延迟，如果延迟开始增加，请开始降低抓取速度。本质上，网站的负载/延迟应该与您的抓取速度成反比。

回复收藏 0 原文

花心好男孩 2024-09-10 14:55:37

当我的客户/老板要求我做这样的事情时，我通常会先寻找公共 API，然后再诉诸公共网站的抓取。此外，联系网站所有者或技术联系人并请求许可可以将“停止和停止”信件的数量降至最低。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

娇女薄笑

文章 0 评论 0

biaggi

文章 0 评论 0

xiaolangfanhua

文章 0 评论 0

rivulet

文章 0 评论 0

我三岁

文章 0 评论 0

薆情海

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文