当前位置：文江博客话题详情

是否可以通过robots.txt控制抓取速度？

发布于 2024-12-10 02:18:01 字数 167 浏览 1 评论 0原文

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以控制Google Webmasters中的抓取速度（Google bot抓取网站的速度）。我想知道是否可以通过 robots.txt 限制爬虫活动，

我的意思是接受机器人爬行页面，但按时间、页面或大小限制它们的存在！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

多彩岁月 2024-12-17 02:18:01

您可以在 robots.txt 中使用一项指令，它是“爬行延迟”。

Crawl-delay: 5

表示机器人每 5 秒爬行的页面数不应超过一页。
但据我所知，robots.txt 并未正式支持该指令。

还有一些机器人根本不真正接受 count robots.txt 文件。
因此，即使您禁止访问某些页面，它们仍然可能会被一些机器人抓取，当然不是像谷歌这样最大的机器人。

例如，百度可能会忽略 robots.txt，但这并不确定。

我没有这个信息的官方来源，所以你可以谷歌一下。

回复收藏 0 原文

我乃一代侩神 2024-12-17 02:18:01

不是我发现的。 Robots.txt 是放置您希望机器人包含或排除的目录或文件的位置。如果有办法的话，它还不是标准的。请记住，创建机器人的人可以选择是否尊重 robots.txt，但并非所有机器人都尊重此文件。

目前，如果有降低抓取速度、网站停留时间等的设置，它将以逐个机器人为基础，并且不会标准化为 robots.txt 值。

回复收藏 0 原文

疾风者 2024-12-17 02:18:01

我知道这是一个非常老的问题，但我想补充一点，根据谷歌文档，这里是官方答案：

您通常可以在 Google 中调整抓取速度设置
网站站长工具帐户。</p>
根据：https://developers.google.com/网站管理员/control-crawl-index/docs/faq#h04

在网站管理员工具中，您可以按照以下步骤操作：

在 Search Console 主页上，点击您想要的网站。
单击齿轮图标，然后单击“站点设置”。
在“抓取速率”部分中，选择所需的选项，然后根据需要限制抓取速率。

新的抓取速度的有效期为 90 天。

参考：Google 支持问题

回复收藏 0 原文

可爱咩 2024-12-17 02:18:01

不可以，robots.txt 文件只能指定您不希望将哪些页面编入索引以及这些规则也适用于哪些用户代理。您无法对该文件执行任何其他操作。

一些网站使用 Allow 和 Sitemap 指令，但根据官方网站，它们似乎不是有效的指令，即使某些爬虫可能会尊重它们。

回复收藏 0 原文

~没有更多了~

关于作者

笑饮青盏花

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

是否可以通过robots.txt控制抓取速度？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

是否可以通过robots.txt控制抓取速度？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。