当前位置：文江博客话题详情

线程是否违反robots.txt？

发布于 2024-11-14 02:43:05 字数 1459 浏览 4 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

命硬 2024-11-21 02:43:05

取决于：如果您的线程有自己单独的要抓取的 URL 队列，并且任何类型的队列之间没有同步，那么当两个（或更多）线程尝试抓取某个站点的 URL 时，您最终可能会违反站点的 robots.txt。快速连续地访问同一站点。当然设计良好的爬虫不会这样做！

非常“简单”的爬虫有某种共享优先级队列，其中的工作根据各种机器人排除协议进行排队，并且所有线程都从该队列中提取要爬行的 URL。这种方法存在很多问题，尤其是在尝试扩展和抓取整个万维网时。

更高级的爬虫执行“预算”计算（请参阅 BEAST 预算执行部分< /a>），这使他们能够根据各种标准智能地安排爬行：垃圾邮件指示器、robots.txt、覆盖率与新鲜度等。预算执行使多线程爬行程序更容易快速爬行并礼貌地爬行！

回复收藏 0 原文

顾北清歌寒 2024-11-21 02:43:05

他们是不相关的。 robots.txt 表示是否允许您访问某些内容。它没有办法说“请在一本书中只发送一个请求”。

回复收藏 0 原文

~没有更多了~

关于作者

东京女

暂无简介

文章

25 人气

关注发私信

我的痛♀有谁懂

文章 0 评论 0

关注

我是自愿种绣球花的

文章 0 评论 0

关注

屌丝范

文章 0 评论 0

关注

lcx_

文章 0 评论 0

关注

予囚

文章 0 评论 0

关注

朦胧时间

文章 0 评论 0

友情链接

文江博客

线程是否违反robots.txt？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

我的痛♀有谁懂

我是自愿种绣球花的

屌丝范

lcx_

予囚

朦胧时间

友情链接

线程是否违反robots.txt？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

我的痛♀有谁懂

我是自愿种绣球花的

屌丝范

lcx_

予囚

朦胧时间

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。